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Chapitre 0 

Avant propos 



Ces notes de cours couvrent l'essentiel des notions de probabilités au programme de 
l'agrégation interne de mathématiques. Elles ne constituent en aucun cas des modèles 
de leçons d'oral. L'image de couverture provient d'Internet, son propriétaire est inconnu. 

Ce livre électronique possède un ISBN fourni par l'AFNIL. 11 est donc en principe 
utilisable le jour de l'oral par les candidats à partir de la session 2013. Si vous l'appré- 
ciez, vous pouvez manifester votre gratitude en faisant un don directement à l'auteur 
sur http : //d j alil . chaf ai . net/enseignement . html. C'est vous qui choisissez le montant, 
tandis que pour un livre classique, le prix est fixe et l'essentiel revient a l'éditeur. Cette 
rémunération directe de l'auteur est dans le même esprit que la rémunération directe des 
agriculteurs et artistes. Elle court-circuite les marchands, qui ne produisent rien. Mais vous 
pouvez aussi choisir de l'utiliser sans payer, car le savoir doit rester librement accessible. 

Voici un extrait du programme 2011 (section 13 et parties de la section 9). On notera 
l'absence de l'intégrale de Lebesgue et des fonctions caractéristiques. 

9 Analyse réelle et complexe 

9.6 Intégrale d'une fonction continue par morceaux sur un segment 

Définition de l'intégrale de Riemann. linéarité, positivité. inégalité de la moyenne, relation de Chasles. Inégalité 
de Cauchy-Schwarz. 

Piimilive d'une fonction continue sur un intervalle. Intégration par parties, changement de variable, calculs de 
primitives et d'intégrales. 

Convergences en moyenne et en moyenne quadratique pour les suites de fonctions. Comparaison avec la con- 
vergence uniforme. 

9.8 Intégration sur un Intervalle quelconque 

Los fonctions considércos dans co pai'agrapho sont supposées continues par morceaux sur l'intervalle I do 
définition, c'est-à-dire continues par morceaux sur tout segment contenu dans /. 

Intégrale d'une fonction positive (comme borne supérieure, éventuellement infinie, des intégrales sur les seg- 
ments inclus dans I). Emploi des relations de comparaison. 

Une fonction définie sur I à valeurs complexes est dite intégrable si l'intégrale de son module est Unie. 
Les trois théorèmes suivants sont admis : 

Théorème de convergence monotone : Soit (/„ ) une suite croissante de fonctions intégrables. convergeant sim- 
plement sur I vers une fonction / continue par morceaux sur /. Alors f est intégrable sur / si, et seuiement si, 
la suite dos intégrales des {„ est majorée; en ce cas. l'intégrale de J est la limite de celles des /„ . 
Théorème de convergence dominée : Soit {/„ ) une suite de fonctions à valeurs complexes convergeant simple- 
ment sur l vers une fonction / continue par morceaux sur f. Si la suite des modules des /„ est majorée par une 
fonction fi intégrable sur I. alors / est jntégraWe sur I et son intégrale est la limite de celles des f„. 
Théorème d'intégration terme à terme : Soit une suite («„ ) de fonctions à valeurs complexes, intégrables sur 
l. telle que la série u,, converge simplement vers une fonction S continue par morceaux sur /, et telle que 
la série Yi,. {, l"-! converge. Alors -S' est intégrabJe sur / et on a .S' = Yl„ I, 

9.9 Intégrales Impropres 

Intégrales convergentes, divergentes ; critère de Cauchy. 
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Convergence absolue, lien avec l'intégrabilité. Emploi des relations de comparaison, de l'intégration par par- 

lias pour l'élude de la convergence. Intégration de relalionfi de prépondérance et d'équivalence. 

Pour une fonction f définie sur [ti. -| -x l et à valeurs positives, comparaison entre la convergence de la série de 

terme général /(n) (n > n) et l'intégrabilité de fsur [a. +oo( (méthode des rectangles). Si f est décroissante et 

positive sur [0. t-ool, alors la série de terme général f{n)— f ^ ^ ||/(t)<// converge. 

13. Calcul inlégral et probabilités 

13.1 Intégrales multiples Tous les théorèmes de ce paragraphe sont admis. 
Intégrales curvilignes, longueur d'un a/r de courbe, travail d'une force. 

Formule de Fubini et définition de l'intégrale double d'une fonction continue sur un rectangle [a.b] x [c,d\. 
.Adaptation à l'intégrale triple. 

Théorème de Fubini-Tonelli : Si f est une fonction de deux variables continue positive sur un rectangle borné 
ou non. on peut intervertir Tordre des intégrations ; lorsque la valeur commune de ces intégrales est finie, f 
est dite intégrable et son intégrale double est cette valeur commune. 

Si J est une fonction complexe de deux variables continue sur un rectangle borné ou non. on dit que f est 
intégrable si son module est intégrable. Dans ce cas, on peut intervertir l'ordre des intégrations et Tintégrale 
de f est la valeur commune des deux intégrales superposées. 
Extension des résultats précédents au cas de fonctions de plusieurs variables. 

Extension au cas du produit d'une fonction de plusieurs variables continue positive par une fonction indicatrice 
d'un ensemble «géométriquement simple». Linéaiité et additivité relativement à la fonction et relativement 
aux ensembles. 

Applications à des calculs d'intégrales. 

Théorème du changement de variables; passage en coordonnées polaires. 
Exemples de calculs d'aires planes et de volumes. 

13.2 Modélisation d'une expérience aléatoire 
Espace Q des épreuves (ou des événements élémentaires) 
tribu (ou (T-algèbre) T des événements ; 

mesure de probabilité P sur cette ttibu. 

Étude d'exemples dans le cas où il est ûni ou infini déaombrable. 

13.3 Espace probabllisé 

Propriétés d'une probabilité. 

Probabilité conditionnelle Tp{.\) de .4 sachant B si T{B) est non nul. 
Formule des probabilités composées (ou totales) et formule de Bayes. 
Indépendance d'un ensemble fini d'événements. 

13.4 Variables aléatoires réelles 

Étant donné un espace probabilisé (12,7". iP ), on appelle variable aléatoire réelle (v.a.r. en abrégé) toute appli- 
cation .V de M dans R telle que l'image réciproque .\ ' (/) de tout inten^alle I de K appartienne à la tribu 
. On admettra que la somme, ou le produit, de v.a.r. est une v.a.r. On se bornera à l'étude des deux familles 
suivantes de v.a.r .- 

13.4.1 Variables aléatoires réelles discrètes 

Une v.a.r est dite discrète si elle prend un nombre fini ou Infini dénombrable de valeurs. Lot et fonction de 
répartition d'une v.a.r. discrète. Moments d'une v.a.r. discrète : espérance, variance et écart tyjte. Espérance 
d'une .somme de v.a.r discrètes. Fonctjon génératrice d'une v.a.r. à valeurs dans 'i. Lois discrètes usuelles ; loi 
hypergéométrique, loi de Bemoulli, loi binomiale, loi géométrique et loi de Poisson. 

13.4.2 Variables aléatoires réelles possédant une loi avec densité 

On appelle densité de probabilité sur K toute fonction de K dans B. ) intégraWe sur K et d'intégrale égale à 1 
(on se limitera à la notion d'intégrale définie dans le paragraphe 9.8). Soit f une densité de probabilité sur R. 
On dit qu'une v.a.r ,V possède la loi de densité f si, pour tout intervalle ! deR, P({.\' e 7^) — f^f{i )dj. 
Fonction de répartition et moments: espérance, variance et écart type d'une v.a.r. possédant une loi avec den- 
sité. Espérance d'une somme de v.a.r possédant une densité (résultat admis). Lois usuelles possédant une 
densité : loi uniforme sur un inten'alle borné; loi exponentielle ; loi de Cauchy; loi normale. 
On admettra le résultat suivant (théorème de transfert) : si X est une v.a.r de loi de densité f et si 4> est une 
fonction de R dans R continue par morceaux sur tout segment et telle que la fonction |<I»|/ soit intégrable sur 
R, alors <I>(.V ) est une v.a.r dont l'espérance est donnée par ; E{<I>(,V)) = j^^{j')f{r)dx. 

13.5 Vecteurs aléatoires 

On dira qu'une application .V - (.Vj .V,, ) de ii dans !R'' est un vecteur aléatoire si chacune de ses com- 
posantes est une v.a.r. On se limitera aux deux cas suivants : 
13.5.1 Vecteurs aléatoires discrets 

Un vecteur aléatoire .V A',,) de Si dans R'' est dit discret si chacune de ses composantes est une v.a.r 

discrète. Loi d'un vecteur aléatoire X. Indépendance de /> v.a.r discrètes. Covarlance et coefficient de corréla- 
tion d'un couple de v.a.r discrètes. Espérance et variance d'une somme de p v.a.r. discrètes indépendantes. 
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13.5.2 Vecteurs aléatoires possédant une loi avec densité 

On appelle densité de probabilité sur P.'' toute fonction f de R'' dans R * , intégrable sur W et d'intégrale égale 
à 1 (on se limitera à la notion d'intégrale définie dans le paragrapfie 13.1). Soit f une densité de probabilité sur 
IR'' . On dit qu'un vecteur aléatoire X = (A'i , . . . , A'p) possède la loi de densité f si on a, pour tous intervalles 
h /p delR, 

P({A, € /,}n-- n{A-p € /p}) = / ■■•/ /(J-I Jp)rfx, ■ - rfj-p. 

Soit X = ( A'i A',.) un vecteur aléatoire de loi de densité f. Soit un produit d'une fonction continue de R"" 

dans & par une fonction indicatrice d'un domaine « géométriquement simple * de R'' et teJJe que ia fonction 
1 soit intégrable sur R'' . On admettra que 4'( A' ) est une v.a.r. dont l'espérance est donnée par : 

E(*(A-))= f f *(-r, x„)f{T, T^)fh,---,l.r,. 

Indépendance de p v.a.r. possédant une loi avec densité. Covariance et coefficient de corrélation d'un couple de 
v.a.r. possédant une loi avec densité. Espérance et variance d'une somme de p v.a.r. indépendantes et possédant 
une loi avec densité. Application aux loi normales. 
13.6 Théorèmes limites 

Suites de v.a.r indépendantes. 

Inégalité de Bienaymé-Tchebychev et loi faible des grands nombres. 
Lcmmc de Borel-Cantclli. 

Les résultats suivants sont admis : loi forte des grands nombres pour une suite de v.a.r. indépendantes équidis- 
tribuécs possédant une espérance. Théorème do la limite centrale pour une suite de v.a.r. indépendantes 
équidistribuées et de variance finie. 

Approximations de la loi binomiale parla loi de Poisson et parla loi normale. 

Voici enfin une bibliographie probabiliste tirée de la liste d'ouvrages disponibles le jour 
de l'oral d'après le [rapport 2010 du jury| : 

* Barbe et Ledoux, Probabilité 

- Bercu et Chafaï, Modélisation stochastique et simulation 

- Bon, Fiabilité des systèmes 

- Brémaud, /ntroduct/on aux prohabilités 

- Combrouze, Probabilités et statistique 

* Cottrell et Genon-Catalot et Duhamel et Meyre, Exeivices de pmbabilités 

- Dacunha-Castelle et Duflo, Probabilités et statistique l 

- Dacunha-Castelle et Duflo, Exercices de probabilités et statistique 1 

- Dacunha-Castelle, Re\'uz, et Schreiber, Recueil de problèmes de calcul des probabilités 

* Dantzer, Matiis pour l'agrég. interne. Analyse et probas. Cours et exos corrigés 

- Dembo et Zeitouni, Large déviations techniques and applications 

- FoUer, An introduction to probability theory & its applications 

- Grimmett et Welsh, Probability (an introduction) 

- Hammad, Cours de probabilités 

- Hammad et Taranco, Exercices de probabi/ités 

- Honncquin et Tortrat, Théorie dos probabilités et quelques applications 

- Isaac, Une initiation aux probabilités 

- Métivier, Notions fondamentales do la théorie des probabilités 

- Métivier. Probabilités : dix leçons d'introduction 

- Neveu, Bases mathématiques du calcul des probabilités 

- Norris, Markov chains 

* Ouvrad, Probabilités 1 (Capes et agrégation) et 2 (maîtrise et agrégation) 

- Pages et Bouzitat, En passant par le hasard, les probabilités de tous les jours 

- Rao, Linear statistical inference and its application 

- Rio, Théorie asymptolique des processus aléatoires faiblement dépendants 

- Robert, Contes et décomptes de la statistique - Une initiation par l'exemple 

- Tenenbaum, Introduction à la théorie analytique et probabiliste des nombres 

- Tenenbaum, Exercices corrigés de théorie analytique et probabiliste des nombres 

- Tortrat, CaJcui dos probabiJitos et inti-oduction aux processus aléatoires 

- Vauquois, Outils mathématiques. Probabilités 
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- Warusfel, Attali, Collet. Gautier, et Nicolas, Mathématiques, probabilités 

Les références étoilées ont été appréciées par les agrégatifs des années précédentes. 
Bonne lecture ! 



Djalil Chafaï 
Mame-la-Vallée 
Hiver 2012 
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Chapitre 1 

Modélisation d'une expérience 



Ensembles 



Événements 



n 

0 



certitude 
impossible 
A implique B 
AetB c'est-à-dire à la fois AetB 
AonB c'est-à-dire au moins AwiB 
A et B sont incompatibles 
contraire de A 



AcB 
ADB 
AUB 



ADB = 0 (AetB di^olnts) 
A^ (on note aussi Â) 



Table 1.1 - Approche ensembliste des probabilités. On écrit événement ou événement 

On modélise une expérience aléatoire en introduisant l'ensemble fi encodant tous les 
résultats possibles de l'expérience, appelé univers. Voici quelques exemples concrets : 

- un lancer de pièce de monnaie (pile ou face) : il - {0,1} 

- deux lancers consécuUfs : iî= {0,1} x {0,1} = {0,1}^ = {(0,U),(U, 1),(1,0),(1, i)} 

- n lancers de pièce de monnaie consécutifs : 0 = {0, 1}" 

- une infinité de lancers de pièce de monnaie consécutif : (1 = {0, 1}** 

- un jet de dé à 6 feces : H { l 2. 3, 1, 5, 6} 

- un jet de deux dés à fî faces de -/ couleurs : fi = (1,2,3,4,5,6} x {1,2,3,4,5,6} 

- nombre d'etoUes observables la nuit : Si = N 

- cote de popularité de Nicolas : Il = [0, lOûj 

- durée de vie d'une ampoiile : Q = BL». 

- poids d'un être humain : f? - [( ». l'Ki 

- point d'impact au jeu de fléchettes -.il {(./. //) € : a;^ + < 1} 

- température Celcius de la soupe du soir : [-273, +00) 

- position du moustique : n = 

- état d'un Jeu de n cartes après battage = (groupe symétrique) 

- cours d'une action en bourse sur la période T : il = C(T". P ) 

Il règne là un ndiil raire typique de l'étape de modélisation, qu'on ne peut pas évacuer com- 
plètement. On (lit souvent à ce propos que tous les modèles sont taux, ma/s que certains 
sont plus utiles que d'autres. Cet arbitraire de la modélisation n'est pas spécifique aux prob- 
abilités. Il se trouve simplement que les modélisations liées à l'analyse (analyse numérique 
par exemple), à l'algèbre (ciyptographie par exemple), ou à la géométrie (cartographie par 
exemple) ne figurent pas au programme. 

On voit bien que Q peut être hni, ou infini dénombrable, ou même infini non dénom- 
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brable. Dans le cas du jet de dé à 6 faces, le sous ensemble {2.4,6} C ft s'identifie à 
l'événement ]e résultat est pair. L'événement impossible s'identifie à l'ensemble 0 tandis 
que l'événement certain s'identifie à l'ensemble îî tout entier. Plus généralement, les événe- 
ments d'intérêt s'identifient à une collection de parties c Piil). Deux événements sont 
incompatibles lorsqu'ils sont disjoints en tant qu'ensembles. Il est naturel d'imposer à T 
quelques propriétés de stabilité, qui en font une tribu (on dit parfois également cr-algcbrc). 

Définition 1.1 (Tribu). On dit qu'une collection T C constitue une tribu lorsque 

1. fi G .F 

2. complémentAire : pour tout A e on a A' e 

3. U dénombrable : pour toute suite {A„) d'éléments de on a J„A„ € 
Rappelons que si (>li)te/ est une famille d'événements et B un événement alors on a 

(U.e/.-l,)'" =nie/.4J 

BniUi^Ai) = U,e/(Bn.4,) 
Du «lia Ai) = n,e/(i?u.4.) 

Proposition 1.2 (Propriétés des tribus). Si est une tribu surfl alors. . . 

1. 0çQ 

2. n dénombrable : pour toute suite (A„) d'éléments de T on a n„.4„ e ^ 

3. limite inférieure et limite supérieure : si (.4„)„^., , est une suite d'éléments de F 
alors les événements suivants appartiennent également à ^ .- 

lim .4n = [J Pi "'"i = {■•-' e fi t cf- A„ à partir d'un certain rang sur 11} 

H m>>i 

et 

lim = Pi ij '^"1 = {■^' e fi t.q. u; € /!„ pour une infinité do valeurs de n]. 
et de plus 

(!im .4,,)' = ÏÏiïï .4;; et (ïhTi .4,, )'" = lim 

Exemple 1.3 (Exemples de tribus). 

1. la tribu triviale {0.fi}, et ia tribu grossière ■r(fi) 

2. si .4 c iî alors {0. .4, .4' , îî} est une tribu 

3. si {J^i)i(-i est une famille quelconque de tribus sur fi alors Piiç//", est une tribu sur 
fi. La tribu engendrée par A c P(fi), A ^ 0, est l'intersection de toutes les tribus 
contenant A. C'est la plus petite (pour l'inclusion) tribu contenant A 

4. si fi est dénombrable (fini ou infini) on choisit en général la tribu engendrée par les 
singletons, qui n'est rien d'autre que P(fi). Cette tribu est également appelée tribu 
atomique car un singleton {u;} avec i^; £ fi est appelé atome. 

5. si fi = R'' on choisit en général la tribu borélienne B qui est la tribu engendrée par les 
pavés de K'' (i.e. par les intervalles lorsque d ^ ï). 

1 0 ^8 1 I Copyrlgl» c [d|jIiI Cr jUi; 7012 ISSN 978-?-SS41710.<)-S E*N 97«7»541 TlOO'i 
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6. si n = fîi X et si J'y et T2 sont des tribus sur Q\ et ÎÏ2 respectivement alors on 
choisit en général la tribu produit sur il, notée 

engendrée par les produits A\ x .1_> où .li ç ^1 et A < e T>. On admet que la trihu 
borélienne sur R'' est la tribu produit des tribus boréliennes. 

7. si fi = {11, 1} ' (pas dénombrable : argument diagonal de Cantor) on choisit la tribu 
cylindrique engendrée par les cylindres 

i4u X .4i X .4^ X ••• 

où Ao,A\, Ai, ... e {0, 1} et A„ - {0, 1 } à partir d'un certain rang sur n. Cela permet 
de modéliser un jeu de pile ou face infini. Plus généralement, si F' est une tribu sur 
f>' alors on équipe Q = W ' de la tribu engendrée par les cylindres Ao x A\ x /I2 x ■ • • 
où .lo, -1]. ^Ij ç T' et A„ = W à partir d'un certain rang sur ti. 



La fonction indicatrice d'un événement .4 c iî est la fonction booléenne 

1,1 •.'jjei}>- 




Les fonctions indicatrices servent à compter : la somme 5Z„ 6St égale au nombre 
d'événement .1,, qui ont lieu. Voici d'autres exemples : 

Théorème 1.4 (Indicatrices). Si A, D J' et (-"lii)„>i sont dans la tribu F alors. . . 
I- l.ino = 1.1 le et IavB = li4 + liî - l.ino 

2. lim /l„ = l,v„ < 3c} etîîïn .4„ = = oc} 

3. hmiA„ = liml.->„ etlîîs;yi„ = HuiIa,. 

Notons que l\ = 1 4 pour tout A 6 F. Les fonctions indicatrices vont jouer un rôle 
important après l'introduction des notions de P et E car E{1 4) - P(.4) pour tout .4 € F. 
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Chapitre 2 

Espace probabilisé 



Les mesures de probabilité permettent de comparer l'importance des événements. On 
peut les interpréter comme un cardinal relatif ou une surface relative par rapport au tout. 

Définltton 2.1 (Probalrilité). Soit une tribu sur un univers fl. Une mesun de pratelill- 
lté ou lof dé prabaUUté sur {{Î,J) est une application P : 7" (0, 1] vérifiant 

1. NormaUsatUm : ¥{(1) = 1 

2. £-ailditlviCé .* si (i4n)„>| est une suite d'événements deux à deux di^oinù|||aior5 

P(U„.-1„) = 

n 

On dit que le triplet {Q, J', P) est un espace probabilisé. 

Proposition 2.2 (Propriétés immédiates). Si (f2,.F,P) est un espace pivbabUisé alors 

1. F(z) I) 

2. pour tout A ona 1 - 

3. pour tous .\. li : /" on a P( -A U £? ) = IP(.l) I P(7?) -?{Ar\B) <V{A) ^ ¥{B) 

4. pour tous .\. Il . .F si . \ c_ B alors F(A) < F{D) 

5. pour tous .\. n fzJ^ on a IP{.1)?(/?) < iniii(?(.î).P(/?)) 

6. pour tous .\.n h .F avec B C .1 on a - P(7î) - n B' ] 

7. probabilités totales ■ si (.l„ ) est une partition de U alors 1 

Démonstration. Pour la troisième propriété, on utilise les partitions 

A\jB = iA\B)U{AnB)U{B\A) et A= {A\B)UiAnB). 



Soit. iM. PiQ).f') un espHce i)rol)abilisé avec H fini. On dit qu'on a équiprobabilité 
lorsque ^ est la mesure de probabilité uniforme sur Si, c'est-à-dire que pour tout v^' e il, 

pour tout 

Tous les atomes de il ont la même probabilité. Dans ce cas. on a pour tout i4 C îî, 

CHid(.4) 



P(A) = 



1. Cela signifie que A, r\A) = a si i^ j, À ne pas confondre avec n„>l„ = 0. 

13 
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CHAPITRE 2. ESPACE PROBABILISÉ 



Il s'agit de la fameuse formule « cas favorables sur cas totaux ». Elle n'est valable qu'en 
cas d'équiprobabilité, et réduit le calcul des probabilités à du dénombrement. Un lancer 
de pile ou face avec une pièce équilibrée se modélise avec la mesure de probabilité uniforme 
sur {II. 1}, qui affecte la probabilité \ aux 2 atomes {()} et {!}. Un jet de dé équilibré à six 
faces se modélise avec la mesure de probabilité sur {1,2, 3, 1,5,6} qui affecte la probabilité 
i aux 6 atomes { 1 }, {2}. {3}, { 1}, {-5}, {6}. 

Remarque 2.3 (Équiprobabilité sur les univers infinis). Il ne peut pas y avoir d'équiprob- 
abilité lorsque (fi, J") = (N. 'P(N)) car la masse d'un atome serait nulle. Il n'y a donc pas de 
mesure de probabilité uniforme sur les ensembles infinis dénombrables. En revanche, si îi 
est un pavé de P/' équipé de la tribu borélienne, alors la mesure de Lebesgue normalisée 
joue le rôle de modèle d'équiprobabilité, à condition de remplacer le cardinal parle volume. 

En pratique, les modèles équiprobables sont les plus naturels, et constituent le socle 
sur lequel tous les autres sont construits. Certaines de ces constructions sont abordées 
dans la suite. Les calculs de cardinaux dans les modèles d'équiprobabilité nécessitent bien 
souvent des formules corabinatoires. Rappel : on considère une urne contenant ii boules 
numérotées de 1 à a (donc distinguables) et on effectue le tirage de /■ boules dans l'urne. . . 

1. sans remise et ordonnés (arrangements, r < n car sans remise) : il y en a 

An,r - Mn -])■■■ (u - r 1 1) = jTTTTyf- Il s'agit du nombre de r-uplets — 6r) 
constitués d'éléments bi,...,br de {l,...,?i} deux à deux distincts. Pour r - n on 

trouve le nombre de manières de permuter { 1 n\, soit .4,,.,, — n\. 

Exemple : nombre de tiercés avec fi chevaux au départ (r - 3). 

2. sans remise et non ordonnés (combinaisons, r < n car sans remise) : il y en a[^ 

(") = = ;rjj;^47TT- s'agit du nombre de sous-ensembles de cardinal y de {] u}, 

autrement dit du nombre d'injections de { 1 r } dans { 1, . . . , n}. 

Exemple : nombre de binômes possibles dans une classe de ;i élèves (i- = 2). 

3. avec remise et ordonnés (rt-uplets) : il y en a rt' . Il s'agit du nombre de r-uplets 
{bi,...,br) constitués d'éléments br de {1 uY, c'est-à-dire le nombre d'ap- 
plications de {1 /•} dans {1 n}. Bien entendu, n'' > .4,,.^ > ("). 

Exemple : nombre de mots de r lettres (>i = 26). 

4. avec remise et non ordonnés : il y en a s'agit également du nombre de 
manières de placer r boules indistinguables dans urnes distinguables, ou encore le 

nombre d'applications / : {l .»} {1.....;} vérifiant /(l) + ••• + f{n) - r. Pour 

obtenir la formule, on aligne les r boules et on place - 1 cloisons délimitant les « 
urnes. Il y a r I 1 possibilités pour la première cloison, r t 2 pour la seconde, . . . , 
r \ n - l possibilités pour la ri 1 ième cloison. L'ordre de placement des n 1 cloisons 
n'étant pas pertinent, on obtient (?• f 1) • ■ • (r • n - 1)! = {",^!^7')' 

Exemple : nombre de possibilités au jeu des chiffres et des lettres (;/ 26 et r 9). 

Exemple 2.4 (Tirage avec remise). Si on dispose d'une urne contenant n boules numérotées 
de l à fi (donc distinguables), alors on modélise le tirage de r boules avec remise parla prob- 
abilité uniforme sur l'univers il - {1 /i}"^, dont le cardinal vaut n' . En conséquence, lors 

d'un tirage avec remise de deux cartes dans un jeu de 32 cartes, la probabilité que les cartes 
soient de la même couleui^vaut (2 x 16-)/,32- l/'2, tandis que la probabilité d'obtenir 2 
as vaut 1-/32- = 1/(11. 

2. On utilise la notation ('') plutôt que fV, . Formule du binôme : (« -|- b)" = f> ('i')n' t"* ■ 

3. Par cou/eur on entend ici de manière non standard rouge ou noir et pas pique, carreau, trèfle, cœur. 



14/(8T] 
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Exemple 2.5 (Tirage sans remise). Si on dispose d'une ume contenant n boules numérotées 
de 1 à /( (donc distinguables), alofs on modélise le tirage de r boules sans remise par la 

probabilité uniforme sur l'univers ii - {T c \ l ii} : < Hnl(r) ;•}, dont le cardinal vaut 

{") - ^n,"' En conséquence, lors d'un tirage sans remise de deux cartes dans un jeu de :i'2 
cartes, la probabilité de tirer deux cartes de même couleur vaut 2('|')/('!,'^) = 15/31, tandis 
que la probabilité d'obtenir 2 as vaut .V(^2 x .'îl). Comme on peut s'y attendre, 

ces deux probabilités sont plus petites que celles avec remise. 

Exemple 2.6 (Jeu de pile ou face). Qu'elle est la probabilité d'obtenir k fois pile en n 
parties de pile ou face avec une pièce de monnaie équilibrée. On prend 0 < A- < n. L'univers 

est Q = {(a\ a„) € {0, 1}"} de cardinal 2", où 0 code face et 1 code pile. L'événement 

d'intérêt est .4 \(it\. ii„) : tii -\- ■ ■ ■ + a,, A }, de cardinal (^). La pièce étant équilibrée, 

on choisit le modèle d'équiprobabilité, et donc P(.4) CHi<l(.4)/oanl(î)) (J.')2~". Nous 
verrons qu'il s'agit d'un cas particulier de la loi binomiale (taille u et paramètre 1/2). 

Exemple 2.7 (Erreur de modélisation). Considérons le résultat du jet simultané de deux 
dés indistinguables. La modélisation par la probabilité uniforme sur {{i.j} : 1 < ».J < 
6} n'est pas bonne (elle donne trop de poids à l'égalité des dés). Le bon modèle est la 
probabilité uniforme sur {{i.j) : 1 < i.j < <>}> qui force à distinguer les dés, et donc à 
reformuler les événements où ils ne sont pas distingués. Par exemple : pour tous l < i.j < (>, 
i'évènenient {i.j} — {(i.j), {j. i)} a probabilité 1/21 dans le mauvais modèle, tandis que dans 
le bon modèle, il a probabilité 2/W 1/18 si i / j et 1/.% si i = j. 

Exemple 2.8 (Échantillonnage). Considérons une urne contenant N - A'i ( A'a boules dont 
Ni blanches et N-2 rouges. On effectue un tirage sans remise den < jV boules dans l'urne. U 
y a ) tirages possibles. Adoptons le modèle de la probabilité uniforme sur l'ensemble de 

ces possibilités, c'est-à-dire sur l'univers il des sous-ensembles de {l :V} à éléments. 

Pour tout 0 < A' < n, le nombre de tirages avec h boules blanches est (^')(„^a)' ®^ 
probabilité de tirer k boules blanches vaut donc 

Cette formule définit la loi hypergéométrique sur les sous-populations de taille n d'une 



population de taille A' à deux types (exemple 3.8). Cela montre au passage que 



Il s'agit de l'identité de convolution de Vandermond^ La formule de Stirlin^ entraîne 
que {^){,lJ^]/i]^,) /(l - lorsque A'i. A'^ -x: avec A'i/A' -y Cette formule 

définit la loi binomiale de taille n et de paramètre i>. La généralisation à d > 2 types se fait 

comme suit : l'urne contient N — A'i 4 f A'^ boules dont A', boules de couleur i pour tout 

l < i < d. On effectue un tirage sans remise de n boules. U y a {'^^) tirages possibles. Pour 

tous ni Hj vérifiant n,- < A', pour tout 1 < i < d et n\ -\ h nj = n, le nombre de tirages 

comportant m boules de couleur i pour tout 1 < r < d est ('^') • • • (']^^). Avec le modèle de la 
probabiltié uniforme sur les tirages, la probabilité du tirage (ru //,/) est 

O ■ 



4. Découle ogalomont de (1 | t -t')'^^ = (l I ^)'^ en développant ot en identifiant. 

5, »! ~ v"27r»t(t(/V)" ou plus précisément «! = \/2sFn(n/e)" (l + 0„ .oc (l/'»))' 
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CHAPITRE 2. ESPACE PROBABILISÉ 



Cette Formule définit la loi hypergéométrique « multitype » (exemple \4.3^ . On retrouve au 
passage une version multivariée de l'identité de convolution Vandermonde^: 



11] ■ -■ ( U,j 

ri, <,V, ....,rrd<,Vj 



La formule de Stirling indique que ('|)'' ) • • • / {'"^ ) converge vers „^(".'„ ,i P'i" • • • P,"'' lorsque 
Ni.... . oc avec .... Aj/A') -> {pi,--pd)- Cette formule définit la loi multino- 



miale de taille u et de paramètre {pi, . . . ,pj) (exemple 4.2). 



Remarque 2.9 (Tirage aléatoire d'une partie). Le tirage d'une partie à k élément dans un 
ensemble à u éléments est modélisé par la loi uniforme sur les {'l) parties à k éléments. 
Il est également possible d'effectuer ce tirage élément par élément, ce qui correspond à k 
tirages sans remise successifs : 

^ - J_ 

'nn- 1 n - A- I 1 {'D' 

Le membre de droite provient du fait qu'il y a kl manières d'ordonner les k éléments à tirer, 
et la probabilité de chaque suite de k tirages vaut l/(?({« - l) ■ ■ ■ {n - k f 1)). 

Exemple 2.10 (Échantillon). On tire 4 cartes dans un jeu de 32. Qu'elle est la probabilité 



s» 0, 001 (une chance sur mille). 



d'obtenir 2 as et 2 rois? Avec le modèle de l'exemple 2.8 avec A' .'52, ( A'j , A'2. A'^) 
(4,4,24) (as, rois, autres cartes), ("i,n2,«3) = (2,2,(J). La probabilité vaut 

Autre exemple : dans un village de N habitants adultes, dont A'i retraités, A'j actifs, et 
chômeurs, on tire au hasard les u membres du comité des fêtes. Qu'elle est la probabilité 
d'obtenir II i retraités, jit actifs, et nj chômeurs? (n < N, rii < A'i, «2 < A''2, n:i < Nj). 

Exemple 2.11 (Problème des anniversaires). Calculons la probabilité p,, pour que dans 
une classe de n élèves, au moins deux d'entre eux soient nés le même jour On suppose 
pour simplifier que les naissances sont uniformes sur les jours de l'année, et on ne tient pas 
compte des années bissextiles. On modélise cette expérience parla probabilité uniforme sur 
l'universiî - {!..... d}" où il - M^>, dont le cardinal estd". Cela correspond à faire n tirages 
avec remise dans une urne contenant <l boules numérotés de l à (L Si .4 est l'événement « 
deux éJéves au moins sont nés le même jour » alors A' correspond à n tirages sans remise 
ordonnés (arrangements !) et donc (pour n < d car p„ 1 sinon) 

n-l 



La suite (/>„)„>! croît de manière sigmoïde, et on a un phénomène de seuil (mode de la 
pente) vers 20 - 30 car p20 * 0,41, pso w 0,71, p4o *» 0,89, pso 0.97. Ceci s'explique 
par le fait que le nombre de couple d'élèves est quadratique en ». Par contraste, si B est 
l'événement « un élève au moins est né le même jour que l'enseignant » alors on a 



P(J3) - 1 - P(B^) - 1 



formule qui ne fait par apparaître de phénomène de seuil. Cette fois-ci, le nombre de cou- 
ples (élève,enseignant) est linéaire en 11. 



6. Découle également de (1 + j- )"■'••- (1 + j-)'^'' = (l+.r)^ en développant et en identifiant ! 
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Exemple 2.12 (Problème du chevalier de Méré). Si l'on jette 1 fois un dé à six faces, la 
probabilité d'obtenir un d vaut 1 - (B/f)) ' =s 0. 52 > 1/2. Si l'on jette 24 fois deux dés à six 
faces, la probabilité d'obtenir un double six vaut 1 — (:ir)/.'ifi)-' s» 0. 4^) < 1 / 2. Le chevalier de 
Méré était un noble de la cour de Louis XIV, qui trouvait ces résultats contre intuitifs car 
il formalisait mal le problème (Pascal en fait part à Fermât dans l'une de ses lettres). Dans 
le premier cas, on utilise ici l'cquiprobabilitc sur l'univers { 1. . . . ,6}^ et dans le second cas, 
l'équiprobabilité sur l'univers {{[. G}')"' - {(«,./) : 1 < i.j < 6]'^. 

Exemple 2.13 (Loi uniforme sur le groupe symétrique). L'ensemble S„ des permutations de 

{ I « } muni de la composition o constitue ce qu'on appelle le groupe symétrique. Il s'agit 

d'un groupe fini non abélien de cardinal La loi uniforme ji sur S,, qui affecte la probabilité 
i/iil à chaque atome deS„ est la seule loi surS,, invariante par toute translation (à droite, ou 
à gauche). La condition est évidemment nécessaire, et sa suffisance s'établit en observant 
que si // est invariante par toute translation (disons à gauche) alors /i(ao (/) = /i(a') pour 
tous a, a' € Sn et donc // affecte la même probabilité à tous les atomes de S„ (en posant 
t7~' - o') ce qui entraîne que n est la loi uniforme surS,,- 

Exemple 2.14 (Probabilité produit). Si (Qi,J^i,f'i) et {ilî^-^i^^i) sont deux espaces prob- 
abilisés, on admet l'existence et l'unicité d'une mesure de probabilité notée Pi « sur le 
produit (12 1 x ih^J"^! 3 J^>), appelée mesure de probabilité produit, qui vérifie 

(P, ®P2)Mxfî) = Pi(.4)IP.(J3) 

pour tout événement produit Ai x ,l_> ç_ J'i x J'2- De même, si (Î2. J". IP) est un espace de 
probabilité, on équipe il ' de la tribu des cylindres ^^"^ et on admet l'existence et l'unicité 
d'une unique mesure de probabilité P®'^ sur qui vérifie 

pO^(.4(, X X .42 X •••) = P(-4„)P(.4i)P(/l2)--- 

pour tout cylindre .4o ^ Ai x Ai • • • 6 J^°° (il s'agit à droite d'un produit fini carP(/l„) = 1 
à partir d'un certain rang sur n). Cette construction est utilisée pour le jeu de pile ou face. 

Remarque 2.15 (Produit et équiprobabilité). Si (f2i,7"i.Pi) et{Q2i-^2,^2) vérifient l'équiprob- 
abilité alors (Ui X îi-i, J"i ® /"^.Pi 3 f y) vérifie aussi l'équiprobabilité. 

Théorème 2.16 (Suites). Pour toute suite (A,,) d'événements sur (9..J^. ?), 

1. si {A,,} est croissance (pour l'inclusion) alors P(il„) P(U„.1„) 

2. si (Au) est décroissance (pour l'inclusion) alors P(.4„) \ P(n„.4„) 

3. P{UnA„)<ZnnAn) 

4. si F(An) = 0 pour tout n alors P(U„^„) = 0 

5. si P(.4„) = 1 pour tout II aiors P(n„.4„) 1 

Démonstration. Pour la première propriété, les B„ = A„ \ A„-[ sont deux à deux disjoints, 
d'où P(U„vl„) = P{U„fî„) = E,, P(fi..) = lim„ E„.<„ P(Bm) = Iim„ P(.4„). □ 

11 est commode d'interpréter P(.4) comme la surface (ou le cardinal) du patatoïde .4 
dessiné sur le plan (ou sur le réseau Z-). Le théorème suivant, connu également sous le 
nom de crible de Poincaré, nous dit que la surface d'une union est égale à la somme des 
surfaces, moins la surface des intersections deux à deux, plus la surface des intersections 
trois à trois, etc, ce qui correspond à inclure et exclure alternativement. 
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Théorème 2.17 (Principle d'inclusion-exclusion). Pour tous Ai, . . . , A, G T 

r 

n^i<i<rAi) = Y>(-\)'^'s, où Sk- Y. n - n.4,,). 

t=l l<i| <■■■<'(, <'■ 

Pour r = 2, on retrouve P(.4i U A-,) = P(/li ) I Pf.l^) - IP(.li n .l.,), et pour r = 3, 

P(Ai U /la U As) = P(/li) + P(/l2) + F{A3) 

- FiAi n .42) - P(.'Î2 n /ïa) - P(-4i n ^3) I P(,4i n Ai n .43). 

Le principe d'inclusion-exclusion est rarement utilisé pour /■ > 2. Il l'est cependant dans 
l'étude de la fluctuation asymptotique du collectionneur de coupons (théorème A.14( l. 



Démonstration. On procède par récurrence sur r, en observant que 

P(Ui<K,+i/li) = P(Ui<i<r/t,) + P(.4r+i) - P((Ui<i<,.4.) n .4,+i) 

- P(Ul<Kr^) -1-P(.4r-, 1) - P(Ui<Kr(/l,- H .4,. i)) 

ce qui permet d'utiliser l'hypothèse de récurrence (pour le premier et dernier terme). □ 

2.1 Conditionnement 

Intuitivement, une mesure de probabilité permet de quantifier le manque d'information 
en affectant un poids aux issues possibles. La prise en compte d'une information supplé- 
mentaire s'effectue en restreignant la mesure de probabilité, c'est le conditionnement. 

Définition 2.18 (Probabilité conditionnelle). Si .4. B e T avec¥'( D) > 0 alors la probabilité 
conditionnelle de ,4 sachant B est la quantité (parfois notée T'ai A )) suivante : 

P,.4|fl, - «diHl. 

^ ' ' P(B) 

Théorème 2.19 (Propriétés importantes). 

1. si P(Z^) > 0 alors l'application 

Fi-\B) :.4e.F->P(.4|JS)€ [0.1] 

est une mesure de probabilité sur (Tî./") appelée probabilité conditionnelle. En parti- 
culier F(U\B) - l, et pour toute suite (A„) d'événements disjoints, 

n 

2. siO < F{B) < 1 aiors 

P(.4) - F(A\B)F{B) + FiAlB'MB") 
et plus généralement si fi = U„B„ est une partition de Q avec P(fin) > 0 alors 

P(A) = Y.^(A\B„)F(B„) 

n 

On a¥(B\B) = 1 et P(.4|ZÎ) = 0 si ,4 n i? = 0 de sorte que P( • \B) est portée par B en 
quelque sorte. En fait, P( • |6) est une mesure de probabilité sur {B,Tb) où Tb - {C n B : 
B e T\ est la tribu trace de T sur B. Notons que ?( • IQ) = P. 
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Remarque 2.20 (Erreur fréquente). P(.1''|i?) = 1 - IP(.IIJ?) mais P{.1|J3'') ^ 1 - P(A\B). 

La formule de Bayes permet d'inverser l'ordre d'un conditionnement. 
Théorème 2.21 (Formule de Bdyes). Si P(.4) > (J et 0 < P(ZÎ) < 1 alors 

¥(AnD) F{A\DW{D) F{A\D)F{D) 



[D\A) 



P(.4) P(.4n £?) + P(.4n2?') F(A\B)¥{B) + ¥iA\D')F(D')' 



La formule de Bayes permet de transformer les données ¥'(A\B).F{A\B''),F{B) en P{B\A). 
Notons la formule suivante parfois utile en pratique pour les calculs numériques : 

nB\A) - ^ 



I ^ KMB' ) iP(g") 



Exemple 2.22 (Test de dépistage de maladie). Des laboratoires pharmaceutiques ont mis 
au point un test médical pour dépister une maladie. Les experts pensent qu'une personne 
sur mille est malade dans la population. De plus, des expériences ont montré que le test dé- 
clare positifs des malades qu'on lui soumet, et qu'il déclare malades 2% des personnes 
saines qu'on lui soumet. Si on définit les événements 

j4 = « le test médical est positif » et B « la personne est malade » 

alors les données se traduisent par 7(B) 1/11)00, F{A\B) = 99/100, et P(.4|i3'^) = 2/100. 
La probabilité que la personne soit malade sachant que test est positif vaut 

Le test n'est vraiment pas efficace de ce point de vue! Le paradoxe vient du fait que sur 
99.9'X de la population le test se trompe dans 2% des cas, et que ces cas représentent 
finalement une grande part des réponses positives du test. Cet exemple est l'occasion de 
rappeler que du point de vue statistique, un test comporte deux types d'erreur (faux positifs 
et faux négatifs) qui ne jouent pas un rôle symétrique du point de vue du risque modélisé. 

2.2 Indépendance 

Intuitivement, deux expériences sont Indépendantes loi-squ'elles ne sont pas reliées par 
une relation causale. Par exemple, le jet de deux dés équilibrés, de couleurs différentes, à 
six faces, est modélisés par l'univers U x fî = { 1. 2, 3. I. .5, 6} x {1.2. 3. 1, -5, 6}. L'absence de 
relation causale entre les deux dés suggère de considérer la mesure de probabilité uniforme 
sur (H X fi, 7^(0 X fi)), qui se trouve être la mesure de probabilité produit des mesures de 
probabilités uniformes. En particulier, si .4 x il (respectivement U x B) est un événement 
qui ne concerne que le résultat du premier (respectivement second) jet de dé, alors[^ 

CanI{.4)ranl(Z?) 
~ Cai(l(î2)CHid(î)) 
= V(A)F{B) 
= P(.4 X n)P(0 X B) 



7. Sur le plan cartésien 52 x il, l'événement .4 x il est une bande verticale et îî y B une bande horizontale. 
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(notons au passage l'abus qui consiste à noter ? à la fois la mesure de probabilité uniforme 
sur {} et sur il x il). Cette formule remarquable conduit à la définition générale suivante de 
l'indépendance, bien au delà du cas de l'équiprobabilité. 

Définition 2.23 (Indépendance de deux événements). Soit (fl. J", P) un espace probabilisé. 
On dit que les deux événements A. 13 ç sont indépendants lorsque 

F{AnB) = F{AmB). 

Exemple 2.24. Considérons le lancer d'un dé équilibré, modélisé par O = { 1. 2. 3. 1. 5. G} 
équipé de la tribu de toutes les parties 'P(ÎÎ) et de la mesure de probabilité uniforme. Soit 
A =«ie résultat est < A», D «le résultat est pair» alors A et D sont indépendants car en 
utilisant les cardinaux : Fi An D) = H F(A)F(D). 

Remarque 2.25. Si A et 13 sont indépendants alors A' et 13' le sont car 

P(.-r nB') = l~ FiA U 5) = 1 - F(A) - ?{B) + ¥{A)P(B) = (1 - P(.l))(l - F(B)). 

En revanche, si A et D sont indépendants et si A' c .4 alors A' et B ne sont pas forcément 
indépendants. En effet, si par exemple A' c B avec A' et B indépendants alors on aurait 

T{A') - FiA'nB) - P(.-1')P(Z^) 

ce qui est impossible si P{A') / (J et F(B) / 1. Exemple : jet de dé équilibré à six faces, 
A «le résultat est < 4», .4' «le résultat vaut 2», et B «le résultat est pair». 

Définition 2.26 (Indépendance d'une famille d'événements). Si (.4,),e/ est une famille 
d'événements, on dit qu'ils sont indépendant^ lorsque pour toute partie finie ,J c /, 

Finj^jAj)=llF{Aj). 

De même, si (/"i),^/ est une famille de tribus sur îî, on dit qu'elles sont indépendantes 
lorsque (M,))?./ sont indépendants dès que .\, c JF, pour tout i c ! . 

Remarque 2.27 (Lien avec indépendance deux à deux). L'indépendance implique claire- 
ment l'indépendance deux à deux mais la réciproque est fausse en général. Considérons par 
exemple le jet de deux dés parfaits de couleurs différentes, à six faces, et les événements 

1. Al =«le premier dé est pair» 

2. A > «le second dé est pair» 

3. .4.H «la somme des deux dés est impaire». 

On a alors en utilisant le modèle d'équiprobabilité sur {1,2,3, 1, 5,6} x {1,2,3, 1, 5,6} 

P(.4, nA.nA:^) = 0 ^ iii = P(yi,)P(.42)P(.43) 

tandis que F{Ai H .42) P(.4| H .4.i) ~ P(.42 H A:\) ^ \. Un autre contre exemple est donné 
par le jeu de pile ou face avec une pièce équilibrée (deux lancers suffisent) modélisé par 
l'équiprobabilité sur l'univers n - {0,1} x {0,1} - {(0,0),(1, 1),(0. 1),(1.0)} de cardinal 4 
avec tl codant face et 1 codant pile. On considère alors les trois événements suivants : 

- A =«/e premier lancer donne face» = {((1, (J).(U, 1)} 

- B =«le second lancer donne pile» = {{1. 1 ).(••, 1)} 

8. On dit aussi (rarement dans la pratique mais souvent dans la définition) mutue/iement indépendants. 
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- C = «les deux premiers lancers donne le même résultat» = { (0. 0), (1, 1)}. 
On a alors AnB^ {(0, 1)}, .4 n C = {(0, (J)|, BnC = {{\A)}, AnBnC = 0. Donc 



tandis que P(.4 n /? Pi C) = (1 / IP(-4)F(/?)P(r). Les événements A, 13, C sont deux à 

deux indépendantes mais ne sont pas (mutuellement) indépendants. 

Exemple 2.28 (Non transitif!). Si A et B sont indépendants et B et C sont indépendants, 
alors A et C ne sont pas forcément indépendants ! Considérons par exemple le jet d'un dé 
équilibré à 8 faces, modélisé par le modèle équiprobable sur il — { 1, 2, 3, 4, 5, G, 7. 8}. Soit 

.4 = {1.2,7,8}. if = {2,3.6.8}, C = {3,4,5,8}. 

La formule des cardinaux donne f {A) = P(/î) = P(C') = ^ et 



mais P(-4 nC) = ^ / IP(.4)P{C'). L'indépendance est symétrique mais pas transitive. 

Théorème 2.29 (Propriétés importantes). 

1. si les {Ai)içj sont indépendants alors les (A'-)içi le sont aussi 

2. A est indépendant de lui même si et seulement si P(/l) e {0, 1 } 

Démonstration. Pour la première propriété, on raisonne par récurrence à partir de 



Remarque 2.30 (Erreur fréquente). JVe pas confondre A et B incompatibles avec A et 
D indépendants. La première notion est purement ensembliste. tandis que la seconde 
nécessite une mesure de probabilité. Notons que si .4 et D sont à la fois indépendants et 
incompatibles alorsW{.AW(D) F(Ar D) P(0) 0 et donc P(.4) Uou?{D) 0. Notons 
enfin que si .4 et D sont indépendants alors A' et D' le sont, tandis que si A et D sont 
incompatibles, alors A' et J5'' ne Je sont que s'ils forment une partition de Q 

Lemme 2.31 (Borel-Cantelli). Soit (.4,,) une suite d'événements dans (fi. J", P). 

1. Cantelli : si ^„ P(.4„) < oo alors P{îiïn.4„) 0 

2. Borel (loi du zéro-un) : si les (.4„) sont indépendants alors 



¥{A n B) = ¥{AriC) = F{B nC) = - = ^1^ = P(.4)P{fî) = P(.4)1B(C') = P(iî)P(C') 



P(-4 n B) - FiB ne*)- - et P(.4 DBnC) - - - P(.4)P(i?)P(r). 



P(^'' nB') - l- F{A U B) 



= 1-F{A)-F(B) + F(AnB) 
= 1 - P(.4) - FiB) + F{A}W{B) 
= (1 -P(.4)K1 -P(Z?)) 
= FiA^)¥{B'). 



□ 




La seconde partie du lemme contient une réciproque à la première partie. 
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Démonstration. Pour la partie Cantelli : la suite (JB„) définie par B„ = U,„>„.i„. est décrois- 
sante. Par conséquent, si Yiu ^('"^n) < oc alors 

P(îhiï.4„) - P(n„fi„) = liinP(B„) < lim V P(.4,„) = 0. 

n n ' 

rn>F» 

Pour la partie Borel : la première partie réduit le problème à établir que si 5Z„ P(-4„) oo 
alors P(lim.4„) 1, ou encore P(ljm.4^) 0. Si D„ n,„>„,4^ alors (/?„) est croissante 
et donc P(lini-4'„) liiii„ IP(iî„). À présent, l'indépendance des (.4'„), l'inégalité 1 — r < 
valable pour x € R, et P(^4„) oc, donnent pour tout ;i : 

P(5„) - JJ P(.4;,) Yl r-^<^'") = e-^"'>"'P(^'"> = 0. 



Remarque 2.32 (À quoi peut bien servir le lemme de Borel-Cantelli?). La première partie 
permet par exemple d'établir une version de la loi forte des grands nombres (Théorème 



5.4), tandis que la seconde partie permet par exemple d'établir que tout mot fini se répète 



une infinité de fois dans un jeu de pile ou face non dégénéré (Remarque \A.2lf . 

Si J". J' sont des tribus sur fi avec J' <z J alors est une sous-trihu de J. 

Théorème 2.33 (Loi du zéro-un de Kolmogorovj^. Soit (îî. T . P) un espace probabilisé et 
(•'^»)ti>i suite de sous-tribus de 7 , indépendantes. Soit Ç„ la tribu engendrée par 
Um>f»^m - Alors P(.4) € {(), 1 } pour tout .4 dans la tribu terminale - n„Ç„. 

En quelque sorte, on a Çy-x; = lim /"„. Notons que si .4,, e 7"„ pour tout n alors lim „ .4,, et 
lim„ A,t sont dans la tribu terminale et donc sont de probabilité 0 ou 1, ce qui montre que le 
second lemme de Borel-Cantelli découle de la loi du zéro-un de Kolmogorov. 

Démonstration. Les tribus J"„ et (7„ , i sont indépendantes, et donc la tribu engendrée par 
U„J^„ est indépendante de la tribu Q^ . Comme Q-^: C U„J^„ on en déduit que tout événement 
de Çx, est indépendant de lui même, et est donc de probabilité 0 ou 1. □ 



9. Hors programme. 
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Chapitre 3 

Variables aléatoires réelles 



Définition 3.1 (Vbriable aléatoire lééUe). Si (n,^,P) est un espace probabUisé, on appelle 
variable aléatoire réelle (abrégé v.a.r.^ toute application X '.tî-^R telle que 

\x ^_ 1} - {ufçQ: XM e /} = x-\i) e F 

pour tout intervaUe I c R. On dit que X est une v.a.r. discrète iorsque X{il) est Ëni ou inGni 

df^nombrahle, typiquement A'(J2) = N. 

Exemple 3.2. Si est un espace de probabilité et A c I' alors l \ est une vari- 
able aléatoire discrète booléenne (Le. prenant les valeurs 0 ou l). On dit qu'il s'agit d'une 
variait aléatoire de JBenioiiIIi de paramètre P(l^ - 1) = ^{A). Plus généreiemeni^ si 
xi,...,Xn eRetAi,...,An çF aloTsxilAj + i-Xn'i-An estnnev.a.r. discrète. 

On rappelle que iR est équipé de la Lrîbu burélienne, engendrée par les intervalles. Une 
fonction / : R ^ R est boréUenne lorsque f~^(I) appartient à la tribu borélienne de R 
pour tout intervalle / c R. On admet que toute fonction continue est borélienne. On peut 

montrer que si X est une v.a.r. et si f est borélienne alors /( A' ) est une v.a.r. On admet que 
Si X et V sont deux v.a.r. définies sur le même espace de probabilité alors la somme X + K 
et le produit XY sont des v.a.r. Par commodité, on note 

p(a: 6 /, r € J) = Fi{x eJ}n{Ye J)). 

Proposition 3.3 (Caractérisation). Une application X : {tï,^ R est une v.a.r. si et 
seulement si {X <x} = X~^ G - oo, x]) € pour tout z € R. 

Démonstration. Découle des axiomes des tribus car tout intervaUe de R s'obtient en util- 
isant un nombre au plus dénombrable d'intervalles de la forme ] — oo, a;] et symboles ft, U, 
Par exemple ]a, b\ =] — oo, ftjnj - oo, o]'' et [a, é] = rinerflo - l/n. □ 

3.1 Fonction de répartition et loi 

Définition 3.4 (Fonction de répartition). La fonction de répartition Fx d'une v.a.r. X est la 
fonction Fx :R-* (0, 1] définie parFx{x) = P(X < x) pour tout a; € R. 

Théorème 3.5 (Propriété des fonction de répeutition). Si X est une v.a.r. alors 

1. Fx est croissante et continue à droite 

2. Iini, _._-^- Fv(.r) = Il et liiti , . Fxix) = 1 
J. Fx{s ) - ¥{X < x) pour tout x e R 

23 
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Démonstration. La fonction F\ est croissante car si x < y alors {A' < x) c {X < y). Les 
propriétés suivantes s'obtiennent en utilisant le théorème |2. 1 6| avec. . . 

- l'union croissante U„{A' < j „} = R pour toute suite (.j „) /" oc 

- l'intersection décroissante n„{A' < x„) — 0 pour toute suite (.r„) \ -3C 

- l'intersection décroissante n„{A' < x,, } - \X < r} pour toute suite (.r„) \ x 

- l'union croissante {X < x} = U„{X < x„} pour toute suite (.;•„) /" ./• avec x„ < x 



Définition 3.6 (Médiane, quartiles, quantiles). Si A est une v.a.r. de fonction de répartition 
F\, alors pour tout o € |0. 1|, et tout .r £ R, on dit que r est un quantile d'ordre a si Fy(x) — 
fi. Pourri \ on parle de médiane. On appelle quartiles les quantiles d'odre 1. 1 \. - La 
médiane en fait partie. La notion de quantile permet de décrire grossièrement la répartition 
des valeurs de la v.a.r. A' ; salaire médian, poids médian, âge médian, etc. Elle joue un rôle 
important dans la construction des tests statistiques. 

Définition 3.7 (Loi). La loi d'une v.a.r. X est la mesure de probabilité Py sur E définie 
pour tout intervalle I c R parF\(I) - IP(A' 6 /). Si yi est une mesure de probabilité surR, 
on note X ~ // et on dit que « X suit la loi // » lorsque la v.a.r. X a pour loi (t. Le terme « loi 
» est synonyme de « mesure de probabilité ». 

Exemple 3.8 (Lois discrètes). La loi d'une v.a.r. discrète à valeur dans un ensemble au plus 
dénombrable E est caractérisée par la donnée de F(X - .; ) pour tout x € E, car pour tout 
intervalle I c R on a, en raison du fait que I r\ E est au plus dénombrable, 

P(A€/) P(A€/nir) ^ P{A' .,). 

x(,lr<E 

Voici quelques lois discrètes classiques qui apparaissent dans le jeu de pile ou face : 

1. loi de Bemoulli : E - {0, 1} et P( A' - 1) - 1 - P(A' - 0) - ;j € [0. 1| 

2. loi binomiale ; i,' = {0, 1 n] et P(A' = A-) = - p)"~^ pour tout k Ç E 

3. loi de Poisson : E N et P(A' k) = e'^jr avec A > 0, pour tout k- e E 

4. loi géométrique : E - W et P( A A ) ( 1 - p)''~ avec p € [0. 1), pour tout k ç E 

Loi hypergéométrique : si dans une population de N = .Yi -I- N-î individus dont A'i sont de 
type 1 et A'o de type '2, on effectue un sondage sans remise sur n < A' individus, alors le 
nombre X d'individus de type \, parmi les ii individus tirés, suit la loi hypergéométrique 
HypL'i(Jc'oni(A'i, A'j. n) sur E = {0. i n} donnée pour tout 0 < A- < n par 

1P(A- = A-) = lAllphL, 
O 

On retrouve la loi binomiale Diiic)iii(n,70 iorsgue .\\. No -x avec X\/.\ p (en utilisant 
la formule de Stirling). Nous avons déjà abordé ces aspects sous l'angle combinatoire dans 
rexemple \2.8\ Les probabilités de la loi géométrique sont parfois difficiles à évaluer à cause 
du comportement explosif de la factorielle, et dans la pratique, il est parfois bien commode 
d'utiliser l'approximation binomiale, ce qui revient à utiliser la formule de Stirling. 

Exemple 3.9 (Lois uniformes). On dit qu'une v.a.r. A' suit la loi uniforme sur l'ensemble 

fini {1.2 »} lorsque F(X - k) = l/n pour tout ï < k < n. Dans ce cas, Fx est constante 

sur les morceaux | - œ, 0|,iO. . . ,|n - 1. n[,|rj, dc | et y prend les valeurs 0. 1/;? {n - \ )/n. 
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1. On dit qu'une v.a.r. X suit la loi uniforme sur [0. 1| lorsque P.v(/) = |/ D [0. 1|| pour tout 
intervalle I cR. Dans ce cas, pour tout x e R, 

[) si x<0 
Fx(x) - { X six e [0,1] 
1 six>l. 

Exemple 3.10 (Lois à densité). On dit qu'une fonction continue par morceaux / : R R 
est une densité (de probabilité) lorsqu'elle vérifie 

f>0 et I f(x)dx= 1. 

J -IX 

On dit qu'une v.a.r. X possède une loi de densité J lorsque pour tout intervalle I cR, 

Aussi F.Y est la primitive de f valant 1 en +oc. Voici quelques exemples de lois à densité : 

1. loi uniforme sur [ttj)\ : f{x) - j;z^l[„.6 {•' ) avec a < b 

2. loi exponentielle : f{.v) = At ~^'"1r. (x) avec A > 0 

3. loi normale (ou gaussienne) : f(x) - -^jj^ oxp(- '''.7„'"^ ) avec in € E et <t > 0 

4. loi de Cauchy : f(x) = ^^^^ 

5. loi de Pareto : f{ v) = (j_„)(V. x)- ^^A^) ^veca > 1 

6. loi du \ -, loi Gamma, loi Beta, etc. 

Un bon exercice consiste à calculer lorsque cela est possible la fonction de répartition. 

Théorème 3.11 (Caractérisation de la loi par la fonction de répartition). Si A' et V sont 
deux v.a.r. alors IP,y P) si et seulement si F\ - Fy. 



Démonstration. Reprendre la preuve de la proposition 3.3 



Le résultat suivant permet de simuler une variable aléatoire à partir de sa fonction de 
répartition et d'un générateur de la loi uniforme (appelée communément rand). 

Théorème 3.12 (Méthode d'inversion). Si X est une v.a.r. aJors F^-^{U) est une v.a.r. de 
même loi que .X , où IJ est une v.a.r. de loi uniforme sur [0, 1) et où F^^ :|0, l(-> R est la 
fonction réciproque généralisée de Fx définie pour toutp € [U, 1] par 

F^\p)^mï{x€R:Fx{x)>p}. 

Démonstration. Comme linij. F.v(j') = 1 et limj._»_nc F.v(.r) = 0 il vient F^\p) € R pour 
tout 0 < p < 1. Si Fx{x) < p alors F^^{p) > x, et comme Fx est continue à droite, 

Fx(F^'{p))>p. 

Donc Fxix) > p ssi F^^ip) < x pour tous x et 0 < p < 1. Comme IP(0 < f ' < 1) - 1, 

P(FY'(f/) < ./■) - IP(f' < Fxix)) = Fxix) 

pour tout .T € K ce qui montre que F'^^iU) et .V ont même loi. Le fait que F^^(p) puisse 
prendre les valeurs ±oo pourp = 0 et p = 1 n'a pas d'importance car 

P((;' = 0) = IP(f/ = 1) = 0. 
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D'autre part, le fait que {U) soit une v.a.r découle du fait que 

{FxH^l < a-} n {0 < f; < 1} = {U < Fx{.r)} n {0 < U < 1}. 

□ 

Remarque 3.13 (Cas continu). On sait que Fx{F'^\p)) > p. Comme Fxi-r) < p pour 
Fy'(p) > .1/ il en découle que si Fx est continue en x e R aJors F^^{Fx{x)) < x et donc 
Fy'(F.v(j )) = X. En particulier, si l'x est continue et strictement croissante alors c'est une 
bijection de R sur \[). 1[ et est sa fonction réciproque. On peut aussi établir que si Fx 
est continue alors Fv(A') suit la loi uniforme sur [0, ]|. 

Exemple 3.14 (Simulation d'une loi discrète finie). Soit (• une v.a.r. uniforme surfil. 1]. Pour 
tout p t |0. 1|, la v.a.r. suit la loi de Bernoulli de paramètre p. Plus généralement, soit 

Pi p„ 6 |0, 1| avec p\ 4 • • • I p„ = I. Posons a<.\ 0 et - pi \ • •• \ p, pour tout \ < i < n. 

La v.a.r. X à valeurs dans {!..... n } qui vaut par définition i sur l'événement {U 6 [ai_i,a<)} 
vérifie forcément ]P( A' - i) - pi pour tout 1 < i < n. 

Exemple 3.15 (Simulation de la loi uniforme sur (o.fi]). Si U suit la loi uniforme sur |(J. 1] 
alors pour tout u < h, la v.a.r. {b — <i)l' + a suit la loi uniforme sur [a, h]. 

Exemple 3.16 (Simulation de la loi exponentielle). Si F suit la loi uniforme sur il. 1] alors 
— In(l - U)/X suit la loi exponentielle de paramètre A. Comme 1 - U et U ont même loi, on 
peut utiliser alternativement - In(f ' )/A. Sur un ordinateur, la fonction in dilate la discréti- 
sation de U prés de 0 et la précision sera mauvaise dans cette zone. Cependant, cette zone 
est peu probable car elle correspond à la queue de distribution de la loi exponentielle. 

Exemple 3.17 (Simulation de la loi de Cauchy). Si U suit la loi uniforme sur [0, 1| alors 
ti\]){7TF) suit la loi de Cauchy. Sur un ordinateur, la fonction tan dilate la discrétisation de U 
prés de 1 et la précision sera mauvaise dans cette zone qui est probable. 

3.2 Espérance 

Nous nous basons sur une définition axiomatique de l'espérence des v.a.r. positives. 

Théorème 3.18 (Espérance des variables positives - Admis). Soit L , P) l'ensemble 

des variables aléatoires définies sur (il.J'.F) et à valeurs dans |l). oc\. Il existe une unique 
application E : (iî.J^.'P) t-^ [0. tx) avec les propriétés suivantes (convention 0 x oo = 0) : 

1. E(l,i) = P(/i) pour tout A G et en particulier E{ln) = 1 

2. E(«A' + ôV) - oE(A') -I- />!£(!' ) pour tous X. Y ç L + J^.P) eta.bç R+ 

3. E(liiu„^Tc A'„) - lim,,^.^ E(A'„) pour toute suite (A"„) croissante de L^(<2. J",P) 

La troisième propriété est connue sous le nom de convergence monotone. 

Démonstration. Si -Y — 5ZJi.!=i ■rA,1.44 avec Ij 1„ ç J' et .cj, . . . ,.r„ 6 alors on ob- 
tient E(A') = 1 ' aPC- U) en vertu des deux premières propriétés. Si A' est une variable 
aléatoire discrète positive, alors il existe une suite (A'„)„>i croissante de v.a.r. du type 
précédent telles que X - liiii„^~c .V„ d'où E(A') - Hj.g.v(n> •' ) P^*" convergence 

monotone pour les séries. On admet le résultat au delà des v.a.r. discrètes. □ 

Exercice 3.19. Montrer que si X > 0 et E(A') < oc alors F(X < oo) = 1. 
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Si A' : (n.T.f) R est v.a.r. alors, en posant, A'^ = max(A'.O) et A'_ = min(A'.O), 

|A'| = A'+ -I- A'_ et X = A'+ - A'_. 

Définition 3.20 (Espérance). On dit qu'une v.a.r. X ; (îl./". P) > R est intcgrablc lorsque 
E|A'| = E(A' . ) 4 E(A'_) < OC'. On définit alors l'espérance de X en posant 

E(A')-E{A%)-IE(A_). 

On note L ' (î J, J^. P) l'ensemble des v.a.r. iiUégrables, et plus généralement L''(il. P) l'ensem- 
ble des v.a.r. X telles que \X\'' est intégrable. 

L'espérance possède les propriétés fondamentales et immédiates suivantes : 

1. linéarité : si X. Y e I'(îî, J^.P) et uji g R alors «X + hY' € L^{n,J^,P) et 

EiaX I bY) = flE(A) I 6E(V') 

2. positivité : si A' € L^{n.J^,F) alors E(A') > 0 

3. croissance : si X. Y e /.'(fi.^.P) avec A < Y alors E(A') < E(y') 
L'inégalité triangulaire donne |E(A . ) - E(A_ )| < E{A', ) l E{A_) et donc 

|E(A)| <E(|A'|). 

Notons que E est une forme linéaire sur l'espace vectoriel (îî. F. F). Si A" est une v.a.r. 
constante et égale à un réel c alors A' est intégrable et E(A') = c. 

Définition 3.21 (Moments). Si A G U'iQ.J'.P) avec p ç N* alors on dit que E{X'') est le 
moment d'ordre p de X. En particulier, E(X) est «le premier moment» de A. 

Remarque 3.22. Si X est bornée, c'est-à-dire F{\X\ < r) = 1 pour un réel r € R+, alors 
X £ IJ'(iî,J'.F) pour tout jt > 1 et X possède dans ce cas des moments de tout ordre. 

Remarque 3.23 (Caractérisation de la loi par une classe de fonctions tests). La loi d'une 
v.a.r X est caractérisée par la donnée de {E(/( A')) : / fc pour une classe de fonctions 
assez riche, comme par exemple les classes suivantes : 

- Indicatrices d'intervalles (fonction de répartition !) 

- Fonctions continues bornées R ^ R (approcher les indicatrices) 

- Fonctions mesurables positives R ^ R (contient les indicatrices d'intervalles !) 

- Fonctions de la forme r c''^ avec i 6 R (transformée de Fouherou fonc. carac.) 

- Fonctions de la forme .v .f' avec s e |(). 1| (fonction génératrice, si X discrète) 

- Fonctions de la forme r t "'^ avec t > U (transformée de Laplace, si X > 0) 

Exercice 3.24 (Espérance des indicatrices). Le principe d'inclusion-exclusion (théorème 
\2.1 7p découle \ia les propriétés de l'espérance de l'identité suivante : 

r 

1 - lu.<.<.vl, = n 1 >; n <l - 1^^) E E (-l)*l^.,n...n.^,,. 

Les inégalités de Boole-Bonferonni raffinent le principe d'inclusion-exclusion : 

,„ I > 0 si m impair 

P(Ui<i<r.4,) - est < < U si m pair 

I^C si f» - r (i/iciu.sion-exc]u.*îjon 
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En prenant tn = l à gauche et m = 2 à droite on obtient le cas particulier (pourr > 2) 

P(.-li) I ■-■ I P(-4.) <P(Ui<,<r.-l,) <P{.4,) \ ■■■ \ IP(.4.)- y;?(.4,n.4,). 
■s. s, J-^ , 



Pour établir les inégalités de Booie-Boneferroni, on commence par observer que si 

sont des nombres réels vérifiant Yi'k=r,i~^)'' " aJors X!î"=ii(~l — " pour les m pairs 
et < 0 pour les m impairs (ceci mérite une démonstration, qui est omise). Appliquée à la 
suite des coefficients binomiaux .ti» = (o); • • • >-'V = (r)/ cette observation donne 



*=o ^ ' 



> 0 si m impair 
est { <(i si m pair 



- 0 si m = >• (formule du binôme !). 
À présent, si r(j.) désigne le nombre d'indices je { 1 r } tels que u; e A, alors 

l<.l<-<.*<r ^ ^ 

Le résultat désiré découle ensuite de la linéarité et de la positivité de l'espérance. On 
trouvera une application des inégalités de Boole-Boneferroni en fiabilité dans le livre de 
Delmas et Jourdain (pages 298-299). 



3.3 Espérance des v.a.r. discrètes 

Le théorème du transfert permet de calculer l'espérance de fonctions de v.a.r. discrètes. 
En particulier, il montre que E{ifi{X)) ne dépend que de la loi de .V. Notons que si X est 
discrète alors >?(A') aussi (pas forcément à valeurs dans N même si c'est le cas de A'). 

Théorème 3-25 (Espérance et formule du transfert pour les v.a.r. discrètes). Si X est une 
v.a.r. discrète à valeurs dans un ensemble au plus dénombrable E alors .X e i '{î7,/",IP) si 
et seulement si la série ^Zj^/T = ^) converge et on a alors 

E{X) = 5] j;P(A: = x). 

Plus généralement, pour toute fonction ^ : ¥. ^ R, on a y (A) ç. L^ift.T.P) si et seulement 
si la série Ylx€K l^Ml^i-'^ = ) converge et on a alors la formule du transfert 

Ei<f(X)) -Y,ç{x)F(X ^x). 

Démonstration. Quitte à numéroter les éléments de E, on peut supposer que E N. En 
écrivant ^ i^^^ — on se ramène au cas où ^ > IJ. On a par convergence monotone 

E(v?(X))= lim E{vp(A')l{.v<n)) 

et le résultat découle alors du fait que E(^(A')lj v<n}) Yl'k=o -Pi^Wi^ ^ 
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Exercice 3.26. Retrouver /a formule du transfert pour les v.a.r. discrètes en partant de la 
formule E(i^(.V) ) J2z ^^(■Pi-'^) même, retrouver la linéarité de l'espérance pour 

les v.a.r. discrètes en partant de la formule E{X + Y) - zIP(A' + V z). 

Exercice 3.27. Montrer que si X est une v.a.r. surN intégreible alors 

E{X) = J]P(X > n). 

ri = ii 

Exercice 3.28 (Inégalité de Jensen). Soit y? : F; ^ R une fonction convexe et X une v.a.r. 
discrète telle que X et y'(A' ) sont intégrables. On a alors 

V?(E(A'))<EMX)). 

De plus, l'égalité est atteinte si IP(A' = c) = I pour une constante <•, et réciproquement si ip 
est strictement convexe. Indication : se ramener au cas où X est discrète finie, utiliser le 
théorème du transfert et la définition de la convexité. Cas particuliers importants : ^{x) = 
\x\, tp{x) — x'^, ifi(x) = |ar|'' avec p > 2, <f{x) = a^, çix) = .r iii(a ) (si X > 0). 

Les fonctions génératrices sont utilisées pour les v.a.r. et lois discrètes sur Pour les 
v.a.r. et lois continues, on utilise plutôt les transformées de Laplace ou les fonctions car- 
actéristiques (hors programme). Le principe est le même dans tous les cas : on introduit 
une famille à un paramètre de fonctions mesurables (/,).,t-/, suffisamment riche pour que 
la connaissance de (E(/.,(.V))),e/ caractérise complètement la loi de -V. 

Définition 3.29 (Fonction génératrice). Si P est une loi de probabilité surN alors sa fonc- 
tion génératrice, notée (fp : [II, Ij — > IR, est définie pour tout s t l] par 

oc 
ri=l) 

Si A' est une v.a.r, de loi P surN alors on note - gp de sorte que pour tout s e [0, Ij, 

no 

Remarque 3.30 (Transformée de Laplace). On a ^ G E{e~*^) — 

Remarque 3.31 (Fonction caractéristique). On peut définir (j\ sur {z G C : \z\ < l). La 

fonction caractéristique de X est 0 ç M_ K(c'"-^ ) = 5A (f'")' c'est-à-dire 9\'\\içC:\t\=\)- 

Théorème 3.32 (Fonctions génératrices). Si X, Y : (n,.J".IP) -f N sont des v.a.r alors : 

1. fix est croissante sur l'intervalle |0, 1|, avec <7.y('>) = IP(A' = 0) etgxO) = l 

2. gx est C'^ sur ] - 1 , 1 [ et £/|v '(0) - P(.Y - n) pour tout n € N 

3. X et Y ont même loi si et seulement si (/x = Or 

4. si X{X - 1) • - (A' - ^ + 1) est intégrable (k G N') alors 

EiX(X - 1) ■ • • (X - A- -H 1)) = lim 9<v '(s). 
L'expression E(A'(A' - 1) ■• -{X - k i 1)) est appelée moment factoriel d'ordre k de A'. 
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Démonstration. Le 1. est immédiat. Le 2. découle du fait que le rayon de convergence de 
la série entière X],T=o - ii) est supérieur ou égal à 1. Pour le 3., si yx = </y alors 

IP{A' = /() = .r/v"(U) = fll'''(<J) = PfV' = ") pour tout /( e N et la réciproque est évidente. 
Le 4. s'obtient en calculant y'y Vs) pour -s € i| (dérivation sous le signe somme) puis en 
utilisant le théorème de convergence monotone (faire tendre s vers 1). □ 

Exemple 3.33 (Fonctions génératrices). 

1. Loi de Bernoulli : <i{s) = 1 + (.s — 1 )/> 

2. Loi binomiale : y(.s) - (1 + (-s - l)p)" 

3. Loi géométrique surN* .- y(.sj — — /')) 

4. Loi géométrique surN : <y(.s) - />/(l — .>i(l — /))) 

5. Loi de Poisson : gis) = e^^*~^^ 

Remarque 3.34 (Combinatoire). Le n" nombre de Bell B„ compte le nombre de partitions 
d'un ensemble à u éléments. On a Bn = L Z?i = l, D> = 2, et (i5n)„>o vérifie la récurrence 



qui se démontre de la manière suivante : pour choisir une partition de {[ n l 1} on 

choisit le nombre h d'éléments qui n'appartiennent pas au même bloc que 1, puis ces k 
éléments parmi n, puis on partitionne ces /.• éléments avec les possibilités. La fommle 
de récurrence se réécrit de la manière suivante : 



E 



ni , V '^•i' frî! 
ce qui donne ridentité des séries formelles en Z suivante : 

gui s'écrit G'(Z) = c^'G{Z) où G{Z) = Y.'u_u i^rZ". ce qui donne G{Z) = e'^'K On reconnaît 
la fonction génératrice de la loi de Poisson de paramètre 1. On a donc 

Notons par ailleurs que si désigne le nombre de partitions à /<• blocs d'un ensemble à 
Il éléments (nombre de Stirling de seconde espèce) alors 



On dispose de la formule de récurrence 



l'^'l = 1^' 'I avec conditions au bord |"| ^ ^ {"} ~ ^ 

car pour choisir une partition de {l ,n I 1} ayant k blocs il faut et il suffit soit de choisir 

une partition de { 1 /( } ayant k - 1 blocs et de la compléter avec le bloc singleton {n I 1 }, 
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soit d'ajouter l'élément n -I- 1 à l'un des k blocs d'une partition partition de {l n] ayant 

A: blocs. Si X est une variable aléatoire de loi de Poisson de paramètre A alors 

E(A'") - ^ |''|a^ en particulier E{X") - B„ si\- l. 
On dispose également de la formule explicite suivante : 

qui peut s'obtenir grâce au principe d'inclusion-exclusion en remarquant que le nombre de 
Stirling de seconde espèce est égal au nombre de surjections de {1 n} dans {1 ,k). 



3.4 Espérance des v.a.r. à densité 

Le théorème du transfert permet de calculer l'espérance de v.a.r. à densité et plus 
généralement l'espérance de fonctions de v.a.r. à densité. Le théorème du transfert montre 
en particulier que E(^( .V)) ne dépend que de la loi de .V via sa densité. Attention : si .V est 
à densité, alors ç(X) n'est pas forcément à densité. 

Théorème 3.35 (Espérance et formule du transfert pour les v.a.r. à densité - Admis). Si 
X est une v.a.r continue de densité f alors X e L ' (îî, P) si et seulement si la fonction 
X *-> |.r|/(.r) est intégrable sur R et on a alors 

E(A')= f^^xfix)dx. 

Plus généralement, pour toute : R R borélienne, on a ■p(X) e r.^{Q..F,F) ssi la fonction 
X ^ \^{^')\f{^) est intégrable surR et on a alors la formule du transfert 

/+oe 
<p{x)f{x)dx. 
■rx> 

Démonstration. Pour tout intervalle / c R, on a , avec ^ = 1/, par définition de E et /, 

E{^{X)) = E(l/) = P(X e /) = jmdx = l""y^{.v)f{x)dx. 

On admet que cette formule reste valable lorsque 1 est un borélien de R. La formule 
reste vraie par linéarité pour toute fonction ^ étagée (i.e. constante sur un nombre fini 
de boréliens). Pour établir le résultat pour toute fonction <f borélienne, on se ramène tout 
d'abord au cas où y? > l) en utilisant la décomposition ç-if^.— ç-, puis on considère une 
suite crois.sante {ç„)„>i de fonctions positives étagées (constantes sur un nombre fini de 
boréliens) convergeant vers (existence admise) et on obtient par convergence monotone 
Ei^iX)) = lim„_oc E(^„(X)) et lim„^^ E{^„{X)) = Sl^^ix)f{x) dx. Q 

Exercice 3.36 (Moyenne). En utilisant le théorème du transfert, retrouver les formules 
pour la moyenne de la loi uniforme, exponentielle, et normale. La loi de Cauchy possédé-t- 
elle une moyenne ? Une médiane ? Idem pour les lois de Pareto et de Student. 

Remarque 3.37 (Queues lourdes). Les lois sans espérance comme la loi de Cauchy ne 
sont pas des objets exotiques réservés aux contres exemples : de nombreux phénomènes 
naturels donnent des échantillons répartis en lois de puissance comme la loi de Cauchy, de 
Pareto, de Student. Notons que si X n'a pas de variance alors A' ' n'a pas d'espérance. 
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Exercice 3.38 (Calcul des moments). En utilisant l'intégration par parties, montrer que 
les moments de la loi exponentielle de paramètre A sont donnés pour tout n > 1 par 



i: 



(formule de récurrence w„. i = A '(ii I \)m„). Montrer que les moments d'ordre impairs 
de la loi normale standard .\'^{Q, 1) sont nuls tandis que les moments pairs sont donnés par 



y_oc v'^ y, 2«(2n-2)---2 



(2n)! 



_. _ 2"»! 



Montrer que les moments d'ordre impairs de la loi du demi cercle de densité 

sont nuls tandis que les moments d'ordre pair sont les nombres de Catalan ;7tt("")- 



Exerclce 3.39. Soit X une v.a.r positive et intégrable, de densité f et de fonction de 
répartition F. Montrer en utilisant le théorème de convergence dominée que 

liui rIP{A' > /•) = Uni E(rl:^„|(A')) = U. 
En déduire par intégration par parties basée sur -(1 — F)' - f sur un intervalle [0. r| que 

E(A')- lim / .<•/(.)•) f/.r- / P( A' > ,r) ri.r. 

'■-^^-Ji, ./il 

Plus généralement, soit \ une v.a.r. pas forcément positive, telle que \X\'' est intégrable 
pour un réel p > \ . Montrer au moyen du théorème de Fubini-Tonelli que 

Eilxn = p j^^t'-^p{\x\ > t)dt. 

Cette identité est importante : elle relie moments et queue de distribution. 



3.5 Variance 

Rappelons que Z,-(fi. J". P) = {A' : (iî.J'.R) > R v.a.r. de carré intégrable}. 

Théorème 3.40 (Carré intégrable). L'ensemble L'{iî.JF.P) est un espace vectoriel et si 
A'.r € L'iil.J^.F) alors XY £ L'(î?.^.?). En particulier, L-(Î2.7".P) c L'(Î2..^.P). 

Démonstration. On a (A' ^ V')-* < 2(A''^ + Y^) et donc L^(il.J',F) est un espace vectoriel. De 
plus, XY = i((X + y)2 - X- - Y') et donc XY e f.^Q.J'.P) si A',y € LHHJ'.V). D 

Comme E(A'-) > Oj'application ( A'. V) E(A'y') définit un produit scalaire sur 1^(12,7", P) 
et en particulier, on dispose de l'inégalité de Cauchy-Schwarz : 

|E(A-r)| < EIA'V'I < v''E(X^)E(y-'). 

Définition 3.41 (Variance). La variance de X 6 L^iU.F.F) est le nombre réel positif 

a-(A')-E((A--E(X))2). 
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La variance de A' représente la moyenne du carré des écarts à la moyenne. Pour obtenir 
un nombre de même dimension que .V, on définit l' écart-type de X par 

a{X) - s,/^^). 

Comme ^^(A') = E(A- - 2AE(A) i E(A)-), on obtient la formule de Kônig 

aHX) = E(A'^) -E(A)-. 
On a <T-(A") 0 si et seulement si P(A' E{A)) — 1 (A est presque sûrement constante). 
Remarque 3.42 (Moindres carrés). Si A' c L-(n,/", P) alors 

Var(A") = 1E((A -E(A"))-') = inf IE((A - mf). 

m É R 



L'inf est atteint en m = E(A' ). Ainsi (t(X) = v''Vâr(Â) est la distance des moindres carrés 
(i.e. L^) de X au sous-espace vectoriel de L-(U.J'.P) des v.a.r. constantes. En d'autres 
termes, E(X) est la constante la plus proche de X au sens L- et cette distance vaut ax- 

Exercice 3.43. Recaicu]eria moyenne et la variance pour les lois classiques (table ^TI^ . 

Remarque 3.44. Si X est une v.a.r. positive de carré intégrable alors par l'inégalité de 
Cauchy-Schwarz, E(A) = E(A'l|.v>o}) < E(A2)''^P(A' > O)''-' d'où, 

P(A' > 0) > ^^'^ l . 
^ ' - E(A-) 

3.6 Inégalités de Markov et de Bienaymé-Tchebychev 

Comme R est réunion dénombrable de compacts, si .V est une v.a.r. alors pour tout > 0 
il existe un compact A' c R tel que P(.V ^ A') < -, et on dit que la loi de .V est tendue. Les 
inégalités de Markov et de Bienaymé-Tchebychev ci-dessous permettent de mieux quantifier 
la propriété de tension lorsque A possède des moments finis. 

Théorème 3.45 (Inégalité de Markov). Sj 0 < A e L'(n,7",P) alors pour tout ;• > 0 

P(.V > , ) < Ml. 

r 

L'inégalité de Markov n'a pas d'intérêt quand ;• < E(A) (la borne est alors > 1). L'iné- 
galité de Markov affirme qu'une v.a.r. A" > 0 intégrable est toujours concentrée autour de 
0. Le cas extrême E( A ) = 0 entraîne P(A'' = 0) = l (masse de Dirac en 0). Si par exemple 
E(A') = 1 alors A' dépasse 100 avec une probabilité inférieure ou égale à 1%. 

Démonstration. Découle de la croissance de l'espérance utilisée avec rl{x>r} ^ A'. □ 

Théorème 3.46 (Bienaymé-Tchebychev). Si A t Z,-(Î2,7".P) alors pour tout r > 0, 

P(|A - E(A)| > ,•) < 

Démonstration. L'inégalité de Markov (théorème 3.4.5^ pour la v.a.r {.V - E(A'))- donne 



Fi\X - E(A')| > r) ^ P((A - E( A))^ > r^) < E((A' - E(A))^) ^ 



Copynght Clp|»lilCtuUV^ 7012. ISSN »7S-7-«S41710.a-5 EAN 1787954171003 



33/f8n 



34 



CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES 



Loi 


Support 


Poids ou densité 


Moyenne 


Variance 


BernoulU 


{0.1} 










Radeniacher 


I 1 1 1 

{-1.1} 


P(.V 


= 1) = /' 


2/)- 1 


/'( 1 - p) 


Binomiale 


{(). 1 ;(} 


P{.V 






nv( \ — fj) 


Poisson 


N 


¥{X 




A 


A 


Hypergéom. 


{01 "} 


HP/ A" 

F{A 


... {v.)(V.') 


Vi 


n.V, ,V.(,V ni 




-V-(,V-1) 


Géom. 


N* 


F(X 


= fr)^ (1 V 


i 
p 


(1 r)^ 


Géom. 


N 


P(A' 


= = (1 -/')^p 




p 






Zipf 


N* 








«;(»-2)-<(»)»<.>3) 


Uniforme 


{1 "f 


P(A" 


= fc) = i 


'1 + 1 


M - - 1 

12 


Uniforme 


|n. h\ C R 


Zl-> 




2 


i.l'-'O- 
12 




R 


Xt-* 




non 


non 


Student 


K 


X 


r<U«i ij>/, , .A 5""" 


0 («>n 




Pareto 


[l.oo( 






n 




Expo. 


K_ 




1 

X 


1 

P' 


Laplace 


K 


S •-> 


Ar-A|.r| 
2' 


0 




Beta 


|0. 1| c R 


J - 












7ÏTZ 


(u- -}-6 t 1) 


Gamma 




X -4 


^,x''-U-''l^Jx) 


a 

j 


(I 


Normale 


R 


X t-^ 




m 


<T- 




K+ 


X t-^ 


1 ri.'2-l -x/2 
2»'^r(ri/2)'^ 


n 


2» 



Table 3.1 - Quelques lois univariées sur M ou R. La loi de Cauchy est une loi de Student 
avec a = 1. La loi exponentielle est une loi Gamma avec a = 1. La loi du est une loi 

Gamma avec a = n/2. La loi uniforme continue est une loi Beta avec n = b = 1. La loi Beta 
avec» h 1/2 est la loi de l'arc-sinus et et du demi-cercle si f/ h '.i/'2. 



L'inégalité n'a pas d'intérêt lorsque r < ct(A') car la borne est alors plus grande que 1. 
Plus généralement, soit <p :R. -> R . une fonction mesurable croissante telle que ç{r) > 
0 pour tout r > 0. Si ■p{\X - E(A')|) est intégrable alors pour tout r > 0 

P(|.V-E(.V)|>,.)<^'^-'l-''-fWI'>. 

An 

Pour ifi(r) r- on retrouve l'inégalité de Bienaymé-Tchebychev. Autres exemples clas- 
siques : ^(r) = r'' avec p > l, et ç(r) = oxp(7 ). La morale est la suivante : plus A' est 
intégrable plus on peut affirmer qu'elle est concentrée autour de sa moyenne. 
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Chapitre 4 

Vecteurs aléatoires 



On rappelle qu'un pavé de R*' est un produit de d intervalles de R. 

Définition 4.1 (Vecteur aléatoire). Un vecteur aléatoire A = (A'i, . . . ,Xd) de R'' est une 
suite Xi,...,Xi de variables aléatoires réelles déSnies sur un même espace (n,.F,P). La 
loi de X est Ja mesure de prabaliiUté sur R** déiSnie pour tout pavé Ji x • • • x par 

Pjc(/i X • • • X = nAi e /i, \d G - F(A € /i X • • . X U). 

Les iois des v.a.r Xu...,X4 sout les lois marginales du vecteur aiéatoire X. 

Le vecteur aléatoire X de R*' est discret lorsque X{U) est au plus dénombrable, et sa loi 
est alors entièrement déterminée par la donnée pour tout ixt,...,Xd)€ X{n) de 

r{Xj = x, Xa = xa). 

Les lois marginales sont des v.a.r. discrètes et leur loi s'obtient en sommant par rapport à 
toutes les autres variables. Par exemple, la loi de la v.a.r. Ai est donnée par 

P(^i = «i) = P(Xi = «1, . . . , .Yd = Xd). 

«2€Xa(ft),...^i€Aj(n) 

On dit qu'une fonction / : R** -f R est une densité de probabilité lorsque 

"• I /(«If. •t«d)<tei 1. 

■a© 7-00 

On dit que le vecteur aléatoire A admet pour densité ) lorsque pour tout pavé li x - ■ • x Ij, 

P(jr e /i X ■•• X /rf)= / ••• / f(xi,...,Xd)dxi---dxi. 

Jh Jid 

La densité d'un vecteur n'est pas unique car on peut légèrement la modifier Les lois 
marginales sont également à densité el leur densité s'obtient en mtégrant / par rapport 
à toutes les autres variables (prendre /, 1 pour j ^ i). Par exemple, la densité de A'i est 

/+00 r+oc 
••• I f{xi,,.,,xd)dxi...dx4, 
■00 J—00 

Le calcul peut être mené par intégrations successives grâce au théorème de Fubini-IbnelU. 
Le théorème de Fubini-Tonelli est fondamental et simple : ne pas en avoir peur I 



35 



Copyrightcu i m a. criai 



36 



CHAPITRE 4. VECTEURS ALÉATOIRES 



Exemple 4.2 (Loi multinomiale). Soft pi € [0, 1] tels que pi + • • • + p,/ = n. On dit 

que le vecteur aléatoire X - (A'i , . . . , A',<) suit la loi multinomiale de taille n e N* et de 
paramètres jn, lorsque pour tout (ui , . . . , n,i) € W' tel que ii\ + • • + - /(, 



P(A-i ^/n,...,Xrf^nrf)^ ■"• , pT 



Cette loi est associée à la formule du multinome 



(n, nrf)€N<' 

"i-I t-nj=n 

Elle modélise le jet de ii dés discernables à d faces, ou encore n tirages avec remise dans 
une urne contenant d boules numérotées (donc discernables). On peut établir que si 0 / 
/ C {1, . . . , </} alors la v.a.r. ^Tie/ ^> ^^'^ binomiale Riiioiu(//, ^^^^ /*,). En particulier, pour 

tout l < i < d la v.a.r. Xi suit la loi binomiale Binom(ri, pj). Plus généralement, si l\ /r 

est une partition de { 1, . . . , d} aJors (Zlt€/i • • • ^ Hie/^ -^i ) suit la loi multinomiale de taille 
r et de paramètre (E<€/i P»' • ■ • ' Eté/. Pi)- 

Exemple 4.3 (Loi hypergéométrique multitypes). Considérons des entiers d > 2, l < 
n < N, et A'i,...,Arf > 1 avec A'i | -■■ f A'</ = A'. La loi hypergéométrique multitypes 

HyppiGcom (Ni , A',;, n ) permet de modéliser le résultat ( A' i A',; ) du tirage sans remise 

dans une population finie composée de d types d'individus. Elle est donnée pour tout 
n = (rii, .... nj) € N'' tel que iii + \- nd - n et ni < Ni iid < Nd par 



(voir l'exemple 2.8). Pour l < i < d, la composante A', suit la loi hypergéométrique à deux 



types llypuiCiuuiiit A';. A' — A';. ;i) de j'exempie |3.8| Lorsque A'i , . . . , A',; dc avec 

(Ni/N....,N,i/N)^{pu...,Pd) 

alors on retrouve la loi multinomiale de taille n et de paramètre (pi p,/). Notons que si 

/l , . . . , /r est une partition de { 1 , . . . , rf} alors (X]ie/i ■^«' • ■ • ' I3t€/r "^'^ ^"^^ 



HyporGec)iii(^ A^ ^ A'i,n). 



iei, lei. 

Cette propriété d' autosimilarité par contraction est l'analogue de celle de la loi multinomi- 
ale. 

Exemple 4.4 (Loi normale ou loi de Gauss ou loi gaussienne). Soit m € R'' et S une matrices 
symétrique d x d dont les valeurs propres sont strictement positives. On dit que le vecteur 
aléatoire X = (Xj, . . . , Xj) suit la normale de moyenne m et de matrice de covariance E, et 
on note X ~ ;V(m, E) lorsque A' a pour densité 



X € 



v/(27r)"det(E) ' V 2^ V 



La loi est qualifiée de standard lorsque m 0 et E /,;. 

Théorème 4.5 (Théorème du transfert pour les vecteurs aléatoires - Admis). Soit X = 
(A'i, . . . . .Vj) un vecteur aléatoire de R'' et ç : R'' R une fonction borélienne. 
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1. Si X est discret et si la série Ylte.\{U) \'p(^)\^i^ - •*") converge alors 

E(^iA'i , . . . , A-,,)) - ^ ^(.f , r^MXi = Xi, . . . , A',, ,r,/). 

(ï,....^d)€n(X) 

2. Si A' a pour densité f et si x € R** Iv(3r)|/{x) est intégrable alors 

■■ ^(a-i X,/) f(xi ..... x,{) dxi ■ ■ ■ dx,i. 

-oc J — oo 

Démonstration. Similaire à celle pour les v.a.r. □ 

Exercice 4.6 (Linéarité de l'espérance). Soit {X. Y) un vecteur aléatoire de R- de densité 
f. En utilisant le théorème du transfert pour les vecteurs aléatoires, retwuver la propriété 
de linéarité de l'espérance ; E(A' + Y) = E{X) + E(r). 



4.1 Indépendance et covariance 

Définition 4.7 (Indépendance). Si X = (.Vi X,i) est un vecteur aléatoire de R'' alors 

on dit que les v.a.r A'i X,i sont indépendantes lorsque pour tous intervalles h. .. . . I,i 

de R les événements { A'i e /,/} ] A',; € /,/} sont indépendants. 

Si par exemple .1 et B sont deux événements alors les v.a.r booléennes l.i et 1/y sont in- 
dépendantes si et seulement si .4 et D sont indépendants. Une variable aléatoire constante 
est proportionnelle à lu et est donc indépendante de toutes les autres v.a.r. 

Exercice 4.8 (De la loi de Poisson à la loi multinoraiale). Montrer que si A'i .V,/ sont 

des v.a.r. indépendantes de loi de Poisson Poi(Ai), • • • i P^UA^), aiors Je vecteur aléatoire 

( Al X., \ 

VA'i+-- + A',, A'i + --- + A'J 

suit la loi multinomiale de taille ii et de paramètre 

iPi Pd)= ( > . X ■• • M ^ X )• 

VA] + • • • -I Ad Al f • • • f A,// 

Montrer qu'il est indépendant de la v.a.r. de Poisson A'i -f • • • + A,/. 

Tliéorème 4.9 (Espérance et indépendance - Admis). Si X = (A'j A',/) un vecteur 

aléatoire de R'' alors A'i . . . . , X,i sont indépendantes si et seulement si pour toutes fonctions 
boréliennes positives ç\ , (^sj : R — >■ R,, on a. dans U { + xi}, 

\i=i / i=i 

De plus, si X[ X,i sont indépendantes alors pour toutes fonctions tp]. v?»/ '■ R R 

boréliennes vérifiant y*i ( A'i ),..., A'^) € (S2. J^. ?), on a 

.1 / .1 \ fi 

HçiiXi) € L'iUJ^.F) et El JJ^'.(A,) = J] E(v:.(Ai)). 

i=l \i=l / /=! 



En particulier E( A'i • • • A,;) - E( A'i ) • • • E{X,i) si A, X,i € J", P). 
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Démonstration. Si la première propriété est vraie, alors son application à des fonctions 

de la fonne Çi 1/, où /, est un intervalle de R fournit l'indépendance de A'i A',/. 

Réciproquement, on procède par approximation, linéarité de l'espérance, et convergence 
monotone à partir de ces fonctions élémentaires. Pour établir la seconde propriété, on 
utilise la y?i = {>Pi)+ — i'y'i)-' la linéarité de l'espérance, et la première propriété. □ 

Théorème 4.10 (Indépendance et structure produit des densités - Admis). 

1. Si les v.a.r. A'i A',/ sont indépendantes de densités /i, /,/ alors le vecteur X - 

( A'i A',;) admet la densité r m- (/i ® • • • ® fd)ix) = /i (ari ) • • • 

2. Les composantes A'i A',/ d'un vecteur aléatoire X de K'' de densité f de marginales 

fi. /j sont indépendantes ssi X admet aussi /i • • • ® fj comme densité. 

Démonstration. Découle de la définition de l'indépendance et du théorème de Fubini-Tonelli. 

□ 

Exercice 4.11 (Loi de Cauchy). Soient X et Y des v.a.r. indépendantes de loi normale 
jV{0, 1). En utilisant le théorème du transfert et un changement de variable, montrer que 
C = X/Y suit la loi de Cauchy. En déduire que si C est de Cauchy alors i/C l'est aussi. 

Remarque 4.12 (Lois normales). Soit X — (Ai Xd) un vecteur aléatoire de R'' de loi 

normale .\'(m. S) où S est inversible. Si S est diagonale alors la densité de X est produit et 

donc A'i A',( sont indépendantes. Réciproquement, si les A'i , A„ sont indépendantes 

alors, comme nous le verrons plus loin, la matrice de covariance est diagonale car li.j = 
rov(A',. A;) 0 si / / j. 

Remarque 4.13 (Simulation de la loi normale). La fonction de répartition de la loi nor- 
male ne possède pas d'expression explicite ce qui ne rend pas commode l'usage de la 
méthode d'inversion pour sa simulation. On peut cependant utiliser l'agorithme polaire 
de Box-Muller . .soit (A', >') un vecteur aléatoire de IR- de coordonnées polaires (r.O). Alors 
X et V .sont indépendantes de loi A'((>. 1 ) si et seuienient si r et 0 sont indépendantes avec 
r- ~ Ex|)(l/2) - Gamiiia(l. l/'2) - \-(2) et (? ~ Uinf(|(), 2;r|). En effet : 

^(-'^^ dxdy = re-VlR^(r)^l[o 2T 

Cette méthode fournit d'emblée deux réalisations indépendantes de A'(<K 1 ) c'est-à-dire une 
réalisation de A''(0. h). Pour des raisons de performance et de précision, certains logiciels 
utilisent plutôt une méthode de discrétisation-rejet (algorithme du Ziggurat de Marsaglia). 

Théorème 4.14 (Indépendance et convolulion pour le cas à densité). Si X.Y sont deux 
variables aléatoires indépendantes de densités f et <) alors X • Y admet la densité 



z^R^if'gHz)^ r }{z-u)(,{y)dy. 

J — .jc 

Démonstration. Comme A et Y sont indépendantes, le couple (X.Y) admet pour densité 
la fonction produit (;r, y) f{.v)g{y). Le théorème du transfert pour le couple (A', Y) donne 
alors pour tout ^ G R, 

nX-\Y<t) = j Jl{(,,,jy.,+y<,]fU)9{y)d.Tdy. 
En effectuant le changement de variable (.!■, y) ^ ( y) avec r — .r + y il vient 

IP(A + Y<t) = j J li,<,)fiz - yhiiy) dydz. 

38 ^8 1 I Copyrlgllt <i |d|»III Crwwl 701?. ISeN978-î-»54171O-<)-5E*N97«7»541TI00'i 



4. 1 . INDÉPENDANCE ET COVARIANCE 



39 



Le théorème de Fubini-Tonelli donne à présent 

P( .V < Y < t) = £ (^1^ "fiz - v)giy)dv^ dz. 

□ 

Exercice 4.15 (Propriétés des lois normales). En utilisant le produit de convolution, mon- 
trer que si A'i et A'.) sont deux v.a.r. indépendantes de loi norniales .Vijiii.aj) et A'(//(2- 't?) 
aioi-s A' + Y suit la loi normale + m y. n{ + (t^,). 

Exercice 4.16 (Propriétés des lois normales). Soit une matrice d x d symétrique dont 
toutes les valeurs propres sont strictement positive. Soit A une matrice telle que E .4.4^ 
(par exemple via le théorème spectral ou via la décomposition de Cholesky). Établir au 
moyen du théorème du transfert et d'un changement de variable que si Z ^ A''((). 7^) alors 
AZ t in - A'(r;i, E). En déduire que si X ~ A'(rn, S) et v e W' alors {X. v) - A'((;7?, v). (i\ Sr)) 
et en particulier Xi ~ .\'(mi. S,.,) pour tout \ < i < d. Ainsi, les lois marginales d'un vecteur 
aléatoire de loi normale sont toutes de loi normale. 

Exercice 4.17 (Propriétés des lois normales). Montrer que si X et Y sont deux v.a.r. in- 
dépendantes avec X de loi de Rademacber de paramètre 1/2 et Y de loi normale A'(0, 1) 
aiors la v.a.r. XY suit la loi normale A'(0. 1) tandis que la v.a.r XY \ Y ne suit pas la loi 
normale. En déduire que le vecteur aléatoire {XY, Y) de F:' a des lois marginales normales 
mais ne suit pas une loi normale sur R-. Les fonctions caractéristiques (hors programme) 
permettent d'établir un résultat positif dans cet esprit en allant au delà des simples lois 
marginales .- si Z est un vecteur aléatoire de IR'' tel que r ■ Z = v\Z\ I • • • l v,{Z,i suit une loi 
normale sur R pour tout v £ R'' alors Z est suit une loi normale sur R''. 

Définition 4.18 (Covariance). La covariance de A'. )' £ L'-{il.JF.F) est définie par 

Co\iX,Y) = EUX - EX){Y - EY)) = E(A'r) - E{A')E(y'). 

La v.a.r. {A' — EA')(y' — EV) est intégrable car grâce à l'inégalité de Cauchy-Schwarz, 

E{|(A' - EX){Y - FA')\) < <t(X)(t{Y). 

On a toujours Cov(JC, Y) — Co\'{Y,X) et Cov(A^,À") = cr'{X) et la formule bilinéaire 

rr'^iX + Y) = (T^iX) + a^iY) + 2Cov{X. Y). 

Si X, Y sont indépendantes alors Cov(^, V) = 0 (on dit que A', >' sont non corrélées) et 

a^X + Y) = a'HX) + a^{Y). 

La réciproque est fausse : Cov(X, Y) = U n'implique pas que A' et Y sont indépendantes 
(on admet que la réciproque est cependant vraie si (A', V) suit une loi gaussienne de R-). 
Contre exemple : Cw{U. U-) = E(t''') - E(t')E({/ -) = 0 si U est uniforme sur (-1, 1|. 

Exercice 4.19. Soit X un vecteur aléatoire de R'' de loi normale X ~ jV(m,E"). Montrer 
que E(A';) = m, pour tout 1 < » < rf etCov{Xi,Xj) - Ejj pour tout 1 < i.j < d. 

Remarque 4.20 (Erreur fréquente). Si Xu — X„ € L^{iî.J^.F) alors 

E(Xi + . . . + X„) = E(A'i) + ■ . • + E(A',.) 
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par linéarité de l'espérance (nul besoin d'indépendance). Si Xi e L^{(Î.J',F) alors 

c^Xi + . . . + À'„) = a\Xi) + • • • I a-(X,,) I 2 Yl ^MX,, Xj). 

i<'<j<« 

Si maintenant A'i, . . . , A'„ sont non corrélées (par exemple indépendantes) alors 

(T^iXi + + X„) = a-(Xi ) + ••• + n-{X„ ). 

Mais la vahance est quadratique, et non pas linéaire .- rr'-{(iX + h) — a-(T-{X). 

Définition 4.21 (Coefficient de corrélation de Pearson). Si.V.y e L'{U. J',?} avec (j'(X) > 
0 et a'{y) > U alors on appelle corrélation de A' et Y la quantité 

Cov(X,y) Cov(A,V') 

Le coefficient de corrélation mesure en quelque sorte la dépendance linéaire. En effet, 
l'inégalité de Cauchy-Schwarz et ses cas d'égalité permet d'établir les propriétés suivantes : 

1. -1 <f){X,Y) < 1 

2. p{X,Y) — 1 si et seulement si P(A' - a)' + b) - l pour des réels « > U et 6 

3. f){X, Y) = -1 si et seulement si IP( A' = aY i 6) = 1 pour des réels o < () et b 
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Figure 4.1 - Relation entre corrélation et dépendance linéaire (source : Wikipédia). 



4.2 Matrice de covariance 

Définition 4.22 (Vecteur moyenne et matrice de covariance). Soit X un vecteur colonne 
aléatoire de R''. Si ses composantes sont intégrables alors on définit son vecteur moyenne 

E(X) = (E{A',) E(Ad)r. 

Si ses composantes sont de carré intégrable alors on définit sa matrice de covariance S(A') 
comme étant la matrice symétrique d x d donnée pour tous 1 < i.j < d par 

E{X)ij = Coy{Xi.Xj). 
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On dit que X est centré si E\X\ = 0. La diagonale de E(A') est constituée des vari- 
ances des composantes de A'. Si les composantes de X sont indépendantes alors E(A') est 
diagonale. La réciproque est fausse en général, mais vraie pour les vecteurs gaussiens. 

Théorème 4.23 (Structure des matrices de covariance). La matrice de covanance d'un 
vecteur aléatoire est toujours symétrique et semi-définie positive. 

Démonstration. Si r est un vecteur colonne de R'', alors la matrice vv ' est symétrique, 
semi-définie positive, de rang l. Ses valeurs propres sont (i et c^r — ||r||î. La matrice 
aléatoire {X - E(A'))(A' - E{-V)) ' est symétrique, semi-définie positive, de rang I. Par con- 
séquent, son espérance S est également symétrique. Le fait que T. soit semi-définie positive 
découle de la linéarité de l'espérance, car si » est un vecteur colonne de R'', 

iJ-En - i,^E[(X - E(A'))(A' - E(X)f]u - E[u^{X - E(A'))(A' - E(A"))"^f/.| > 0. 

En revanche, E peut être de rang quelconque entre 1 et J, bien que (.V -E( A'))(.V — IK(.Y))^ 
soit de rang 1 (il faut concevoir l'espérance comme une combinaison convexe infinie). □ 

L'ensemble des matrices d x d symétriques semi-définies positives est un cône convexe 
fermé : si A et B en sont deux éléments, alors pour tous réels A,// > (), la matrice \A -\- fiD 
l'est également. La frontière de ce cône est constituée par les éléments du cône qui ne sont 
pas de plein rang. L'intérieur du cône est le cône convexe ouvert des matrices symétriques 
définies positives de dimension d x d. 

Théorème 4.24 (Racines carrées matricielles). Toute matrice symétrique semi-définie pos- 
itive y. de dimension d x d s'écrit 5J = yl/l' où A est une matrice de dimension d x d. Une 
telle matrice .1, appelée racine carrée de Y., n'est pas unique en général. 

Démonstration. Le théorème spectral fournit une matrice diagonale D et une matrice or- 
thogonale /' telles que v PDP^ . De plus, D - DiHg(Ai . . . . . A,;) où {Ai.....Ad} c R'I 

est le spectre de Y.. Ainsi, E _ ,4.4^ oîi .4 /'DiHg( \/Â7 v'X/)- Un autre choix possible 

est .4 PDlagl v/TV \f^)P^ , qui fournit une racine carrée symétrique et semi-définie 

positive. Dans les deux cas, les matrices E et .4 ont le même rang. Alternativement, la dé- 
composition de Cholesky fournit une matrice triangulaire inférieure .4 à diagonale positive 
ou nulle qui vérifie .4.4 ' = E. Une telle matrice se calcule par un algorithme récursif simple 
et exphcite. En effet, l'équation .4.4 ' = E est équivalente au système d'équations suivant : 
pour tous 1 < i < / < t/ 

r-l 

AuAj^i = Zij - ^ Ai^kAj^k- 

k-\ 

La diagonale de S est positive ou nulle, strictement positive lorsque S est inversible. Dans 
ce dernier cas. il existe une unique matrice A triangulaire inférieure à diagonale stricte- 
ment positive telle que .4.4^ = E, et la décomposition de Cholesky constitue alors un cas 
particulier de la décomposition LU des matrices inversibles. □ 

Théorème 4.25 (Transformations linéaires). Si A est un vecteur colonne aléatoire de R'' 
à composantes de carré intégrable et si .4 est une matrice n x d, alors le vecteur aléatoire 
AX de R" a pour vecteur moyenne .4E{A') et pour matrice de covariance .4E(A').4^. 

Démonstration. Par linéarité de l'espérance, on a E(-4A") — .4E(A") et, lorsque E(A') — 0, 
E((.4A')(.4À')') = E{AXX'^A^) = AE(XX'')A^ = .4E{A)/l'^. 

□ 
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Théorème 4.26 (Généricité des matrices de covariance). Toute matrice dxdY!, symétrique 
semi-défime positive est la matrice de covariance d'un vecteur aléatoire de fJ. 

Démonstration. Soit ,4 une racine carrée matricielle de E et .Y un vecteur aléatoire de R'' 
dont les composantes sont indépendantes centrées et réduites. La matrice de covariance 
de A' est I^. Le vecteur aléatoire ,1A' est centré, de matrice de covariance AIjA^ = E. □ 

Le produit de Hadamard .1 o B de deux matrices A et B de dimension (/ x d est la matrice 
de dimension d x d définie par {A o Bjij — AijB,j pour tout 1 < j, j < d. 

Corollaire 4.27 (Schur). Si .4 et B sont deux matrices symétriques semi-définies positives 
de même dimension, alors Ao B est symétrique semi-définie positive. 

Démonstration. Soient A' et Y deux vecteurs aléatoires indépendants et centrés de R'', de 
matrices de covariance respectives .4 et B. Le vecteur aléatoire Z de R'' défini par Zj - XiYi 
pour tout 1 < / < d est centré, et sa matrice de covariance est donnée par A o B car .V et 
V sont indépendants et centrés. Ainsi, la matrice symétrique .1 o B est semi-définie positive 
en tant que matrice de covariance d'un vecteur aléatoire ! □ 



4.3 Fonctions génératrices 

Si (A'. Y) est un vecteur aléatoire de N-, sa fonction génératrice g{x.Y) '• [Oi 1]^ K est 

oc rte 
ri^ll III —1) 

(en particulier, f/.v i vi*»") = fli.v.> i('^- Le théorème qui suit montre que la fonction généra- 
trice caractérise la loi du vecteur et permet de détecter l'indépendance des composants. 

Théorème 4.28 (Fonctions génératrices). Si (A'. V) est un vecteur aléatoire de N'^ alors 

1. c>"=Qf^"Ioy(A.v) ~ " "-^ "') pour tous u,in € N 

2. .Y et Y sont indépendantes ssi fli.v.viO^- ') = .7a(*)//v(0 pour tous (-s. f) e |U, 1) 

3. si X et Y sont indépendantes alors gx . y = gxftv 

Démonstration. Propriété 1. Immédiate. Propriété 2. Si A' et Y sont indépendantes alors 
9(X,Y)isJ) = E(«'^'.s^) = E(s'^')E{.s^) = .7a(*-)//v(0 

pour tout .s, / € [D, 1|, tandis que pour .s 1 ou / 1 le résultat est immédiat. Réciproque- 
ment, si y{x,Y)i'*-^) ~ yx{-'^)yy(i) pour tous e [o, 1[ alors 

30 oc OC OC 

^ 51 = n,Y = ni) = = ")IP(V' = m) 

n=Ofn=Û i(-i'iii-i' 

ce qui donne ?(A' ri,Y - tn) - P(A' - ri)P(y' - m) pour tous ii.m € N en prenant la 
dérivée f)"^oO','Li} des deux membres (propriété 2.). Ainsi A' et V sont indépendantes. 

Propriété 3. Découle de la propriété 2. avec -s = f car //(.v. y )(•"*' ■'<) ~ H.\ i vl**)- □ 

Exercice 4.29. Soient A' et Y deux v.a.r. surN indépendantes. On a alors : 

1. si X ~ Binom(7?.p) et Y ~ Binom(m,p) alors X I \' ~ Binoni(n I m.p) 

2. si X ~ Poi(A) et Y ~ l'oi(^) alors X I Y ~ Poi(A + /i) 
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Chapitre 5 

Théorèmes limites 



Ce chapitre concerne des suites de v.a.r. indépendantes. 



5.1 Loi des grands nombres 

Considérons un référendum dans une population de grande taille, qu'on modéIise[[]par 
une suite de v.a.r A'i.A'j,... indépendantes et de même loij^] de Bemoulli de paramètre 
inconnu p € [0. 1|. On a donc F(A'„ - 1) - 1 - IP'(A'„ - ()) - p - E(A'„) pour tout u > 1. La 
loi faible des grands nombres affirme que la moyenne empirique ^(A'i + • • ■ + X„) est un 
estimateur convergent et sans biais de p (convergence en probabilité). 

Théorème 5.1 (Loi faible des grands nombres). Soient X\. X > des v.a.r. indépendantes 

et de même loi. de carré intégrable. Si in est leur espérance, alors pour tout c > 0, 



lim P( 



Ai + ••■ + A,. 



III 



> 5^ = 0. 



En d'autres termes, la suite (A„)„>i converge en probabilité vers in. 

Si la loi des A'i, A^ est à support compact alors elles possèdent des moments de tout 

ordre, et en particulier ces v.a.n sont de carré intégrable (ceci comprend le cas Bemoulli). 

La loi faible doit sont nom à la fois à la nature de la convergence (en probabilité, alors 
que la loi forte énonce une convergence presque sûre), ainsi qu'à la nature des hypothèses 
(carré intégrable, alors que la loi forte ne nécessite que l'existence du moment d'ordre 1 ). 



Démonstration. En utilisant l'inégalité de Bienaymé-Tchebychev (théorème [3.46f pour la 
v.a.r. Sn — Xi \ ••• { X„ - mu, et le fait que o-(S„} = /(<7-(A'i) (hypothèses!), il vient 



P 



( 



n 



-- P(|5,. -E(5,.)| > m) 
a- {S,,} lia- 



Exercice .'5.2 (Contre exemple des lois de Cauchy). Montrer que si Xi .V„ sont des 

v.a.r indépendantes de loi de Cauchy alors leur moyenne empirique ~{Xi + ■ • • + A'„) suit 

1. Un sondage se modéliserait avec la loi hypergéométrique. 

2. On dit aussi i.i.d. : indépendantes et identiquement distribuées. 
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également la loi de Caucby. Indication : se ramener par récurrence au cas ti = 2, puis cal- 
culer un produit de convolution en effectuant une décomposition en éléments simples. En 
déduire que la loi des grands nombres peut ne pas avoir lieu sans l'hypothèse d'intégrabil- 
ité. Cette propriété, mise en évidence sur les lois de Cauchy, concerne en réalité toute une 
classe de lois à queues lourdes (par exemple lois de Pareto ou Student). 

Exemple 5.3 (Polynômes de Bernstein et théorème de Weierstrass). Le théorème de Weier- 
strass sur la densité des polynômes dans C{\a.b\.¥<.) pour la norme uniforme || ||^ peut 
être établi en utilisant la loi faible des grands nombres. En effet, un simple argument de 
translation et dilatation permet de se ramener au cas où [o..l)\ - [(). 1). À présent, fixons f 
dansC(\0. 1].P.). Les polynômes de Bernstein (P„)„^>i définis par 



n-k 



/'~(.v)^è(::)/(^).v'. 

convergent uniformément vers f sur |0. 1|. En effet, pour tout r 6 [(). 1] et tout ii € N*, 

P„(.r) - E ^/ 1^ ^ ^ j où .S'„ ~ Binuni(n, .».•). 

Par conséquent, pour tout x € [0, l\ et n c M', 

fix) - P„(x) = E(^f(.r) - f(^^^y 

Fixons un c > O arbitrairement petit. Comme f est continue sur l'inter\'alle compact |0. 1|, 
elle est uniformément continue d'après le théorème de Hoine, et donc il existe r/ > 0 tel quo 
\f{.v) - /(//)| < ^ pour tous x.y G [0, 1] tels que \x - y\ < t}. Fixons également .r c |0. 1| et 
considérons l'événement A„ { |^ - .( | < ;/}. La loi faible des grands nombres fournit un 
entier N tel que ?(.4'„ ) < s pour tout ii > N . Par conséquent, on a, pour tout n > N, 



\f{x) - Pn{x)\ < E 

= E 



/( 



/(.'■) - / 



<E(c) + E(2||/|Ul,4.) 
<(l+2||/||^)r 



et cette borne est uniforme en r G [0. 1], CQFD. Remarque -. le théorème de Weierstrass 
permet d'établir, en utilisant la caractérisation de la loi par les fonctions tests continues 
et bornées, que si X et Y sont deux v.a.r. bornées avec une suite de moments identique, 
c'est-à-dire que E(.V") = E(y'") pour tout u > 0, alors X et Y ont même loi. 

Théorème 5.4 (Loi forte des grands nombres - Hors programme). Si (A'„)„>i est une suite 
de v.a.r. indépendantes et de même loi possédant une espérance m alors 



r lini = m - l. 



En d'autres termes, la suite (.V„)„>i converge presque sûrement vers m. 

La preuve (hors programme) fait appel à une méthode de troncature pour se ramener 
à des variables bornées. Elle se trouve par exemple dans le livre de Paul S. Toulouse ou de 
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Feller. Nous donnons ci-dessous deux preuves rapides lorsque les variables sont bornées 
(par une constante ou dans L') ce qui nous dispense de troncature. Il est également pos- 
sible d'établir que pour une suite A'i.A'o,... de v.a.r. indépendantes et de même loi, la 
condition d'intégrabilité E(|.Vi|) < oo (i.e. A'i possède une espérance) est nécessaire et 
suffisante pour que la loi forte des grands nombres ait lieu. Notons enfin que l'événement 
{lim„_-c. "^ ' t'^'"^'^" - m} est bien mesurable (exercice de réécriturc dcnombrablc !). 

Démonstration. Quitte à remplacer les A', par A', - E(Xi). on peut supposer que m = 0. On 
pose S,, = A'i \ ■ • • + X„. A présent, on observe qu'il suffit d'établir que 

P(îûïï{|5„| > m}) - 0. 

En effet, dans ce cas, pour une suite l*. \ 0 arbitraire, on a P( lim. , { |5„ < n£/t}) = 0 pour 
tout A- > 1, et donc P(lim„ /f"'.S'„ - 0) - IP{n/.. ljm„{ |.S'„| < irs/,}) - 1. 

Preuve lorsque les variables sont bornées. On suppose qu'il existe une constante 
C > I) telle que P(|A';| < (') 1 (ne dépend pas de / car les variables ont même loi). La 



première partie du lemme |2.311 de Borel-Cantelli permet de se ramener à établir que 

5^P(I.9„| >.-«) < X: 

pour tout ; > 0 fixé. Or pour tout r > 0 et tout entier ;? > 1, l'inégalité de Markov donne 

P{S„ > ns) < P(c^-^" > me) < C'-'^'Eic'-^") = G"'^E(e''-^'' )", 

où l'égalité finale provient du fait que les variables A'i.A"2.... sont indépendantes et de 
même loi. À présent, comme m - E(A'i) - 0 et P(|A'i| < C) - 1, il vient, en utilisant 
l'inégalité élémentaire c' - ^ < e^^' si t 6 [U, 1/2] et c' - t < e' < c'*' si ^ > 1/2, 

E(c^-^'' ) < c''^ - K' < c-^'"^'. 

Par conséquent, on obtient, en effectuant le choix optimal r - ?/( IC'), 

ns„ > ne) < e'"^-'^"'"^" < 

Combinée à la même inégalité pour les variables -A'i, -A ). . . -, on obtient enfin 

P(|5„|>n5)<2r-"*'/(«^''. 

Le membre de droite est bien le terme général d'une série convergente, comme désiré. 

Preuve lorsque les variables sont bornées dans L'. On suppose que les variables 
A'i. Xo sont bornées dans L', c'est à dire que r ' Ei-V/ ) < oc. On a alors 

E(Sf,) = nr' I -Mn - l)(r' = C?(»-). 

Ainsi, pour tout : > 0, par l'inégalité de Markov, 

Y,n\S„\ > ne) ^ '£n\Snf > n'e') < E ^ < ^ 



et le résultat découle à présent de la première partie du lemme |2.31| de Borel-Cantelli. 
Notons que si IP(|A']| < C) = 1 alors la suite Xi.X), ■ ■ ■ est bornée dans L', et la seconde 
preuve est donc plus puissante. D'autre part, elle reste valable même si les variables ne 
sont pas de même loi, pourvu qu'elles soient indépendantes et bornées dans L'. □ 

451^ 



Copyngnt C| 01*111 ClaWl 7012. ISaN »78-7-1541710.O-5 EAN 1787954171005 



46 



CHAPITRE 5. THÉORÈMES LIMITES 



Exercice 5.5 (De la loi forte à la loi faible). La loi faible (théorème 1 5. Jp découle de la loi 
forte (théorème 5.41 carF(n '|.S'„| > ï) < P(-4„) avec An = {suiU::-,! - ' ) comme 



la suite (.4„)„>, est croissante, on a liiii,,-,.^, F(.4„J P{n„.4„) 1 quand m (t. 

Exemple 5.6 (Marche aléatoire simple sur S). La marche aléatoire simple peut modéliser 
la position d'une particule dans un fluide, et sa version continue, le mouvement Brownien, 
a été introduite en physique par Einstein et Langevin, et en finance mathématique par 
Bachelier Soit (A'„)„ ,i suite de v.a.r. indépendantes et de même loi de Rademacher de 
paramètre /> € |U, 1], c'est-à-dire que F(X„ - 1) - 1 - IP(A'„ - -1) p pour tout n > 1, 
modélisant les incréments dus au choc avec les particules du fluide. La marche aléatoire 
simple sur Z est la suite (S,,),,-^.^ où S„ = A'i I • • * A„, La loi forte des grands nombres 
entraîne que si p ^ 1/2 alors iS,,),,^^ diverge vers ±oc avec probabilité 1 quand n -> oc. 

Remarque 5.7 (Une preuve de l'inégalité de Jensen avec la loi des grands nombres). L'iné- 
galité de Jensen affirme que si X est une v.a.r intégrable et ^ : K -> R une fonction convexe 
telle que ç{X) est intégrable, alors 

<piE(X)) < Ei^X)). 

En particulier, pour ^(x) = x- on retrouve E(A')- < IE(A'-) tandis que pour .p{x) ^ |.r| on 
retrouve |E(A')| < E(|A'|). Pour étabUr l'inégalité de Jensen, on commence par exprimer la 
convexité de y ; pour tout entier n > 1 et tous réels x\ , ./ „, 

1.) + •■• + rU,,) 



\ " / ~ » 



Nous pouvons appliquer cette inégalité en remplaçant xi x„ par une suite X\ . A'„ de 

v.a.r indépendantes de même loi que X (l'inégalité est valable pour toutu; G il). À présent, 
la loi forte des grands nombres appliquée deux fois affirme qu'avec probabilité 1, 

lim ^.(E(A)) et lim ' + ' " " + - - E(v.(A)). 



La première convergence fait appel à la continuité de ç. qui découle de sa convexité. Enfin, 
si A et B sont deux événements tels que F{A) - P{B} - 1 aJors .1 n B / 0. 

Remarque 5.8 (Convergence monotone ou théorème de Fubini-Tonelli). Le lecteur fami- 
lier avec l'intégrale de Lebesgue connaît bien le théorème de convergence monotone : si 
(A"„)„>i est une suite croissante de v.a.r. à vaieurs dans \0. yj alors 

liiiiE(A'„) E(limA„). 

n tl 

D'autre part, si X est une v.a.r sur \Û.oc' vérifiant E(A") < x: alors P(A' < oc) - 1. La 
première partie du lemme de Borel-Cantelli en découle car 

J^nA.,) - J:E(1 ,,) e( J] l,„ ) - e(i^,_.,). 
n I» \ f» / 

On peut également voir ce résultat comme une conséquence du théorème de Fubini-Tonelli 
plutôt que comme une application du théorème de convergence monotone. Une autre con- 
séquence du théorème de convergence monotone (ou du théorème de Fubini-Tonelli) est 
que 

V E(|y'„|) oc ^ P(lim )'„ = 0) = 1. 

* ^ tl 
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En effet, on a E(^,jy'„|) = ^„E(|K„|) < oo et donc J2„ v.a.r. sur [0, xi] d'e- 

spérance finie, et. donc finie avec probahilité 1, ce qui implique que V„| tend vers 0 avec 



probabilité 1. Cette obsen'ation suggère une preuve alternative du théorème 5.4 



130 d'où P( liiu — = 0 1 - i. 



Remarque 5.9 (Suite). Soit {A'„)„^., une suite de v.a.r. indépendantes de carré intégrable. 
Si ^„ Vfti(A„) < oc alors en vertu du théorème de convergence monotone ou du théorème 
de Fubini-Tonelli positif on a P(liui„ A',, - E(A'„) 0) l. En particulier, si (A'„)„>, sont des 

v.a.r. i.i.d. centrées de carré intégrable alors 

Pdinuj = 0) = 1. 

Attention, il ne s'agit pas de la loi des grands nombres, qui concerne la quantité /("'(Ai + 
••■ + A,,). 

Remarque 5.10 (Statistique d'ordre et vecteur des rang). Soient A; \'„ des v.a.r. 

indépendantes et de même loi admettant une densité. L'hypothèse de densité entraine 
qu'avec probabilité 1 les composantes du vecteur X - {X\ A'„) sont deux à deux dif- 
férentes, et qu'il existe donc une unique permutation (aléatoire) tty à valeur sur le groupe 
symétrique S„ telle que A'_^(i) < ••• < A'^^.(„). On dit qu'il s'agit de la statistique d'ordre 
de l'échantillon A'i , A'„. En particulier 

'^«x<i) ~ """(-'^ i ^"1 A'„^.(„) = max(A"i X„). 

On dit que le vecteur (- y' (1), — TTy^{n)) est le vecteur des rangs de l'échantillon Ai A„. 

La loi du vecteur X est échangeable, c'est-à-dire que les vecteurs aléatoires X et AV = 
(A'<t(i), .... A'<^(„)) ont la même loi quelque soit n ç S„, d'où 

P(z,v -a)- P(A„n^ < - • - < X„,„0 - P(X, < ■ • ■ < X„). 

Le membre de droite ne dépend pas du choix de a G S„ et vaut donc 1 , f nii.l(>'„ ) = l/n!. 
Ainsi, a suit la loi uniforme sur S„. Alternativement, il est également possible d'observer 
que 7r.Y„ — - a quelque soit a G iS,, donc que la loi de -\ est invariante par toute 
translation, et donc que tt y suit la loi uniforme sur S„ en vertu de l'exemple \2.i:}\ Il se 



trouve que rry et la statistique d'ordre X^,^ sont indépendantes, car pour tout borélien 
A c {(.ri ..i-„) 6 R" : xi < ■■ ■ < .r„ \ et toute permutation rr c S„, 

Finx = n. .V,, e .1) - IP(.V„ni < ••• < X„^„yX„ e .1) - ^P(.V e \ ■ a' t .s;,[). 

m 

Exemple 5.11 (Covariance empirique). Soit X un vecteur colonne aléatoire de centré 

et do matrice de covariance Y.. Soient .\i \'„ des vecteurs colonne aléatoires de IR'" de 

même loi que A. La matrice de covariance empirique H,, est définie par 



L„=^{XiXj I ••■ I x„x]) = -x': 

Il n 



où X est la matrice aléatoire in x n dont les lignes sont A'j V,;. La matrice aléatoire 

E,, e.st symétrique semi-définie positive car combinaison convexe de telles matrices. On a 
E(S„) - T. et la loi forte des grands nombres indique que Y.,, converge entrée par entrée 
vers y., avec probahilité 1. Comme l'ensemble des matrices inversible est ouvert, si 53 est 
inversible, alors avec probabilité 1, la matrice est inversible pour n assez grand. 
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5.2 Théorème de la limite centrale 



La loi forte des grands nombres montre que la moyenne empirique 

A'i + ■ ■ ■ + A',. S„ 

A.n — — 



est un estimateur consistant et sans biais de m. Pour tout 0 < a < 1/2, le théorème 5.12 de 
la limite centrale fournit un intervalle de confiance pour m de niveau asjTnptotique a : 



-V n — r= 



où q„ est le quantile 1 — ':f de la loi normale centrée réduite. On a en effet 

/S" - n m \ 1 f" 

lP(m € /„,a) = P -^S^- e \~<ia.q»\ — > ^ / e" 2 rfu = I - a. 
V Vn<^ } V27r 



L'intervalle /„,„ est de largeur 2aq,^n qui tend vers C» si n -> oc, et vers si a -> 0. 

Théorème 5.12 (Théorème de la limite centrale - Admis). Soft (A',j)„>i une .suite de v.a.r. 
indépendantes et. de même loi, de vahance non nulle et finie et de moyenne m. Alors 
pour tout intervalle I de K, 

/v^/.V.+... + X„ _ N ^ N i 

•>^^ \ a \ n ) } \/2^ il 

En d'autre ternies, en posant S„ - A't + f- A',,, la variable aléatoire 



\/n /S^ _ \ _ S„ - nm _ 5» - E(S„] 



converge en loi vers la loi normale centrée réduite 1) lorsque n oc. 

L'expression {S„ — E(S„))/(t(S„) montre bien que la moyenne est fixée à 0 et l'écart-type 
à 1 le long du théorème de la limite centrale. La vitesse en v"" provient de (t{S„) <t\/77. 
Si les (.V„ ) sont de loi normale .\'(;», a-) alors (.'>„ - nin)/\' iia- ~ A'(0. 1 ) et cela permet de 
concevoir le théorème de la limite centrale comme une sorte de théorème du point fixe. 

Démonstration. La preuve basée sur les fonctions caractéristiques est rapide mais hors 



programme. Utilisons plutôt l'inégalité de couplage de Lindeberg du lemme |5.13| dans le 
cas où E(|A'] - 7n|') < ce qui couvre le cas Bemoulli. Pour toute fonction / e C*(R, R) 
telle que /, /'. /", /"' sont bornées, et tout n > 1, ce lemme donne 



K<^))-//<"'7fc'--'" 



Pour tout ri t R, on pose /„ - ] — ocnj. Pour tout £ > 0, on peut construire t C*(R, R) 
avec Ue. î'^,,J'l,. ÎZ bornées, telle que 1/,,, . < J.,,, < 1;., . et ||/^^',||^ < De plus. 



j , i- - ilii — I . f - (lu 

.//„v'2rr .//,, v'2rr 



< 



1 



h-i,\ < \b-n\. 



Cela donne, pour tout c e R, tout m > 1 et tout c > 0, en utilisant fc±E,c. 
E(|A, 
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Lemme 5.13 (Inégalité de couplage de Lindeberg). Soient A'i,y''i ,X„,K„ des v.a.r. in- 
dépendantes telles que E(|A'jt|*) < oc et Y\ ~ A'(E(A'<.),a-( A'/i)) pour tout l < k < n. Alors 
pour toute f 6 C'(IR. R) avec f. /'. /". /"' bornées, en posant E(| A't - E( A'jt)!^), 



|E{/(x, + . . - + A'„)) - E(/(y', + ■ ■ ■ + y;.))| < 



•II/" 



Démonstration. Quitte à translater / on peut se placer dans le cas où E(.\7.) = U pour tout 

1 < A < Fixons u > 1 et posons = A'i I 1 A';_i + Yk+i -I 1- i'„ pour tout 1 < A" < n, 

ce qui donne la somme téléscopique (penser à des dominos !) 

fl 

E(/(x, + ■ - . + A'„)) - E(/(r, + . . . + r„)) - E ^^f^^f' + - f^^k + ^'i^))- 

La formule de Taylor-Lagrange appliquée à / à l'ordre 2 en donne 

lA'fcl-' 



et 



f{Z, I XK)-f{Zk)-f'(ZM)Xk-f"{Zky-^ 



Comme A'^ et Yk sont indépendantes de Zk et ont des moments d'ordre 1 et 2 identiques, 



- 3! 



"'I 



iE(/(Zt + x^)-/(z, + n-))i< 



Comme Vu - a{Xk)Gk avec G\. ~ A'''(0, 1) et comme E{\Gk\^) - \ j\pÏK < 2, on obtient 

E(|rA.|3) - E(|A'A.|-f '-E(|GA.r*) < 2E(|A'i.|-'). 



Exemple 5.14 (Ruine du joueur). Un joueur gagne à chaque partie 1 Euro avec probabilité 
p et perd 1 Euro avec probabilité 1 -ji. Les parties sont indépendantes. Sa fortune à l'instant 

u est une v.a.r X„ qui vérifie A'<i 0 (fortune initiale nulle) et X„ = eiH [-e„ où (z:k)k>i ^^t 

une suite de v.a.r. indépendantes de même loi de Rademacber de paramètre p, c'est-à-dire 
que IP(cit - 1) - 1 — P(fjt - -1) - /) pour tout k > 1. On pose m 2/> - 1 et a- - Ap( \ — p). 
Soit 0. 6 6 Z avec a < 0 < b. Le joueur quitte le jeu dès qu'il est assez riche ou trop endetté, 
c'est-à-dire dès que sa fortune atteint b ou sa dette atteint a. Cela se produit à l'instant 
aléatoire suivant : 

T inr{n > 1 : X„ ^ [a.h]} inf{ï» > 1 : A'„ a ou X,. b}. 

Montrons que F(T < ex) - 1. Si p / 1/2 alors m / l) et parla loi forte des grands nombres, 
presque sûrement (A'„)„>i tend vers I oo si p > 1/2 et vers -oc si p < 1/2. Reste le cas 
p = 1/2 c'est-à-dire lu = (J. Pour tout n > 1, en posant /„ = ^ \a,b\, on a 



lP(r = oc) < P(h < X„ < b) 



Or (/) ' '"A',,),, ,| converge en loi vers ,\'{0.a'} par le théorème de la limite centrale. Mais 
I„ dépend de u. Cependant, comme (/„)„> i est décroissante, on a 

liuisnj)P( 4^ e /„ ] < inf , ^ f dt-Q. 
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Exercice 5.15 (Du théorème de la limite centrale à la loi faible des grands nombres). /] 
est possible de déduire la loi faible des grands nombres du théorème de la limite centrale. 
En effet, si (V,,),, est une suite de v.a.r. qui converge en loi veis une loi C et si ('/„)„ est 
une suite déterministe qui tend vers i), alors (n„) „ )„ converge en probabilité vers l). Pour 
le voir, en utilisant la caractérisation de la convergence en loi au moyen des fonctions test 
continues et bornées, établir que si une suite de v.a.r. converge en loi vers la loi d'une v.a.r 
constante alors la convergence a lieu en probabilité, puis adapter la preuve, ce qui donne : 

P(|"„V„ >--)"<' P(|V,J > 1) E(l[_i p (>;,))< E(|VJ) E(|0|) = 0. 



h 



11 



] 



J 



Figure 5.1 - La loi binomiale de taille ii grand et de paramètre /> est bien approchée par 
une loi normale lorsque p est proche de 1/2 et par une loi de Poisson lorsque /» et proche de 
I) (lorsque y est proche de 1, il suffit de « renverser horizontalement la loi de Poisson ». 



3.3 Approximation de la loi Binomiale par la loi normale 

Soit (-V„)„ ,1 une suite de v.a.r. indépendantes et de même loi, de moyenne et de 
variance non nulle et finie n' . On pose .s',, A', I • • • \ A'„ pour tout ii > 1. Le théorème 
|5.12| de la limite centrale indique que pour tout / t R, 

lun P -^^= <t] = -i=c - dx. 
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Cela suggère que la loi de .S'„ est proche de A''(nm, no^) lorsque n est grand. Le théorème 
de Berry-Esseen précise cette proximité en affirmant que pour tout ^ € K et ;i > 1, 



sup P( <n / -F=t - (il 



< 



où — E(|.Vi - E(.Vi)l'). Lorsque (A',J„,j sont de BernouUi de paramètre /) 6]U, 1[, en 
notant = 1 - on trouve m = p, = pq et = pq{\ - 2pq) ce qui donne 



sup 



P(5„ < y/ïïpqt + up) - / -=f - 



< 



-P<J 



y/npT] 



Cette approximation de la loi binomiale par la loi normale est d'autant plus bonne que 
I 1 - L'/>( 1 — y'))/v "/'(l ~ /') f^st petit. À II fixé, cette borne est minimale pour/* 1/2 mais 
explose quand p se rapproche de i» ou de 1. Une preuve du théorème de Beny-Esseen 
se trouve dans le livre de Feller. Notons que notre preuve du théorème |.t.12| de la limite 
centrale permet déjà d'établir une borne en C)(;i~' '*) en y prenant £"* = 0{n~^''}. 

11 est possible de quantifier la proximité de la loi binomiale à la loi normale en utilisant 
la densité plutôt que la fonction de répartition, comme dans le théorème suivant. 

Théorème .5.16 (de Moivre et Laplace). Si S„ Bim)iii( ?i. />) avec D < p < \ et q — ] - p 
alors pour tous -oc < a < b < t oc on a la convergence uniforme .suivante ; 



liui V " sup 1P(5„ = k) - 



exp 



ou 



\/'2nnpii 
k — np 



V 2nM J\ 



I„{a,b) = fo < fc < n : € [o,6]|. 



Le théorème 5.16 fournit par intégration le TLC dans le cas Bemoulli : 



liui P 

fi— 



V "y'7 / y/ 2- J„ 

Démonstration. Nous allons utiliser le raffinement suivant de la formule de Stirling : 

n! = V27rn(-) "ft*" avec \0n\ < - 
Vf/ n 

pour une constante c > i). En posant q - 1 - /j et j = u ~ k il vient 



V{Sn=k)=p'(\ -p)"- 

On remarque tout d'abord que 

\9n - fiy - 0, 



I 1 1 
- + J + - 



Fixons à présent — oc' < a < h < f ie et .r € \n.h\ de sorte que /,• ;(/> | r^^njui e I„{a.li) et 
X = {k - np}/ y/'irpT/ e [a.b]. On a alors j - n — k nq - s^itpq. On observe que 



hm su)i 



J_M_i 

npq n 



— Um sup 
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En particulier, pour fi assez grand, 



D'autre part, on a 



snp \0„-f)i,-0,\ < r(- + —). 



VA/ V np I- Xy/lïpqJ 



Commej^ + a) — n + \u '\ < ■if\"}\„\) pour tout ii > 1 il vient 



liin Slip 

rfc a, h 



^■1" (y) + .'■r/îîpq + - 



x^itpq 



2(7ip + .i\/npfi) 



Comme 



on a 



x'npq 



x^q 1 



2(np + Xy/npq) 2 (y _y /Z^ 



lim s<ip 



De même on montre que 



liin sM]) 



.'■"</ 

xy/npq + — 



0 

— , ■> " P 



0. 



0. 



On en déduit que 



'^iTTiipq V - / 



où lim sup |r„(.r ) - 1| 



□ 



5.4 Distance en variation 

Dans toute cette section, E est un ensemble au plus dénombrable. L'ensemble des lois 
sur E est un espace métrique pour la distance en variation (on dit aussi variation totale) 

dv(p.,^)= Slip 
Ad'- 

On a 0 < </i (//,(') < 1 et (A (/','') 1 si // et /' ont des supports disjoints. Le théorème 
suivant affirme en particulier que la distance en variation coïncide avec la distance f'(ii). 

Théorème 5.17 (Expressions alternatives). Si p et i/ sont des lois sur E alors 

dvin- - i sup / / dp - 1 fdi\^]-y^ - "(•'■)! 
2 s..E^^-Ui\\J J \ ^,^E 

De plus, le svpretnum dans la définition de dv est atteint pour l'ensemble 

A,^ {x e E : p(x) > t^{.T)} 
tandis que dans l'expression variationnelle fonctionnelle de dy il est atteint pour 

/= 1^. -l.U- 



3. Car ln(l + n) = u - i»" -i- j "t-{l +0"' <" pour tout u > -1, 
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Démonstration. La seconde égalité provient de l'identité 

I / / cU, - ffdi]<Y^ - ''(^)l < sup |/(.r)| ^ ki(x) - Hx)\ 

qui est saturée pour / = l.i. - l \^ . Pour la première égalité, on écrit 

où / = 1,1 - l.v , ce qui donne 

\ti{A) - ,^{A)\ < l sup I //ri/y - [fd,] = 1 \,i{x) - 



d>' 



qui est saturé pour A = ^1, car 



2\ti{A.)-u{A,)\ Y. !/'(•'■) Y. ) - 



Théorème 5.18 (Convergence en loi). Si (-Y„)„;,j est une suite de variables aléatoires sur 
E et si fi„ désigne la loi de A',,, aiors pour toute loi // sur E, les propriétés suivantes sont 
équivalentes : 

1. lim„^Pt / / d//„ = j f dfi pour toute fonction bornée /:£'—»■ R 

2. liiii,,-*^, //„(;r) - /t(;r) pour tout .; G E 

3. lim„^rc dv{fi„.fi) = 0 

Lorsqu'elles ont lieu on dit que (X,,) converge en loi vers /i quand n — > oc. 

Démonstration. Pour déduire 1. de 3. il suffit d'utiliser l'expression variationnelle fonction- 
nelle de d\ . Pour déduire 2. de J. on peut prendre / = Pour déduire 3. de 2. on observe 
que pour tout .1 C E. 

xGE i6.4 rÇ:fV 

ensuite, grâce à 4.. pour tout 5' > (J il existe un entier N = N{A, c') tel que le premier terme 
du membre de droite est majoré par rîird(.4)f' pour tout n > A'. Pour le second terme du 
membre de droite, on écrit 

Puisqu'on a 

Y ''"^-^^ = S ''^-^^ " Y. ''"(•^) ' Yl ''(-^^ 

jP.l" xeA x6.4 x€j4'" 

on obtient 

.rë.i' r^A .rt.»' 

Puisque // € P, pour tout s" > 0, on peut choisir .4 fini tel que //{.4*^) < s". □ 
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Remarque 5.19 (Dispersion à l'oc). Si iji„) sont des lois et ft{.r) = li lll„_ioc f^n[-^) cllors 
Il n'est pas forcément une loi, sauf si E est fini. En effet, lorsque E est infini, il peut se 
produire un phénomène de dispersion de la masse à l'infini. Contre exemple : E - N et ji,, 
affecte la masse l/'n aux singletons { 1}, . . . , {/;}, ce qui donne // identiquement nulle. 

Théorème 5.20 (Autre expression et cas extrémal). Si // et u sont des lois sur E alors 

En particulier, dvif, ~ 1 si et seulement si fi et v ont des support disjonits. 
Démonstration. Il suffit d'écrire 



Théorème 5.21 (Couplage). Si et \> sont des lois sur E alors 

dvUi,i^)= iiif P(AV>') 

où l'infimim porte sur les couples de v.a. sur E x E de lois marginales /i et r. De plus, il 
existe un couple de ce type pour lequel l'égalité est atteinte (i.e. l'infimum est un minimum). 

Démonstration. Soit (A', Y) est un couple de variables aléatoires sur£xJS de lois marginales 
fi et Comme P(X = x,Y = x) < fi{x) A {/{t) pour tout x Ç. E ona 

l-,h U,.,^) ^{/x(,r)A,.(r))> J]P(A'^ar,y-:r) P(A- Y). 

Il suffit donc de construire un couple (A'. V ) pour lequel l'égalité est atteinte. Posons 

p= l-dv{ti,u) € 10,1|. 

Cas où p = 0. On a alors dylp.i') = 1 et /i et ont des supports disjoints. Cela donne 
P(A = Y) - ^t{x)l.'{x) — 0. On prend (A. Y) avec A ~ /i et Y ~ indépendantes. 

Cas oùp = 1. On a alors d\ {^, t>) = 0 et donc // = c. On prend (A, A ) où A ~ p. 
Cas où 0 < p < 1. Soit (U. V. W) un triplet de variables aléatoire de lois respectives 

/)-l(/iA,/), (l_y,)-l(,/-(,,A*/)). (l-p)-'(/.-(/rA/.)). 

Notons que i> 5IreK0'(' )''^'''(j'))- Soit 13 une variable aléatoire de Bemouill, indépendante 
de ((\ V. W), telle que P(/? - l) - 1 - P( /? ()) p. Définissons (A. Y) ~ {UJ'} si /? 1 et 
(A, Y) — (V, U') si 5 = 0. On a alors A' ~ y/ et Y ~ u, et puisque les lois de V et \V ont des 
supports disjoints, on a P(V' = W) = 0, et donc P(A = Y) = ?{B = l) = p. □ 

5.5 Approximation de la loi Binomiale par la loi de Poisson 

Si Sn suit la loi binomiale Binnni(;î,/?) alors pour tout k e K, on a, 
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Figure 5.3 - Approximation de la loi binomiale par la loi de Poisson. 
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Ceci montre que si p dépend de n avec lini^^oc = A alors la loi de S„ tend vers Poi(A). La 
distance en variation permet de quantifier cette convergence en loi : l'inégalité de poisson- 
isation de Le Cam du théorème 5.22 ci-dessous donne (utile si ri/r est petit) 



E 

fe=o 



?{S„ = k) - c 



A! 



< 2npK 



Théorème 5.22 (Inégalité de poissonisation de Le Cam). Soient A'i, A'„ des v.a. in- 
dépendantes de loi de Bernoulli avec pi = P(A'i = 1) = 1 = 0) pour tout l < i < n. 
Soit p,, la loi de 5',, = A'i 4 • • ■ I A'„ et soit - Poi{pi | . . . \ p„) la loi de Poisson de même 
moyenne que S„. Alors on a 

<l\ iPu-i',,) < i>i + • •/'n- 

Démonstration. On commence par établir par récurrence sur n que si o i o„, . — 3,, 

sont des lois de probabilité sur N alors on a l'inégaltié sous-additive 

f/v (ai " o„, iii < dv{auii\) + • • • + dv(a„, 

Ensuite on établit que dv{\i'mi.mi{\.p),Poï{p)) < //'. Rappel : Poi(fi) * Poi(/j) Poi(« + b). □ 

Notons que p] ^ + < (p\ + • • ■ + />„) iuHXi<fc<„/*fc. 
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Annexe A 

Compléments 



A.1 Lois exponentielles 

Les lois exponentielles sont très importantes en modélisation stochastique. 

Théorème A.1 (Minimum - Hoiloges en compétition). SI £i, . . . , sont des v.a.r. indépen- 
dantes de loi exponentielle de paramètres Ai, . . . , An alors 

M = min(Bi, . . . , E„) ~ Exp(Ai + • • ■ + A„). 

De plus, avec probabilité ], le minimum M est. atteint, pour un unique entier aléatoire K 
indépendant do M et de loi donnée pour tout l < k < n par 

P(K = *) = F(M = Ek) = '^^ 



Al + ■•■ + A,, 



Démonstration. On a F(M > x) = r{Ei > x) ■■■¥(£., > .r) = , -(-M - ^ -V. pg^^ j^yt j. > q 
et cela montre que M suit la loi exponentielle de paramètre Ai + . . . + A„. Pour traiter A', 
nous allons déterminer directement la loi de (MyK), ce qui fournira à nouveau la loi de M. 
Comme les v.ax sont indépendantes et de loi à densité* avec probabilité 1, l'entier aléatoire 
K est bien défini sur {l,...,n}. Pour tout l<Ar<nett>Oona 

{M >tBtK = k) = {Ek>tet Bk» > Ek pour tout *' # *}. 

Par iiypothèse sur les variables aléatoires £1, . . . , £„ il vient 

¥{M > t et A" = *) = f\e-'^ TT > «) rf« = f 1 - e-*<*' + -r — - . 

Jt j^"^ ^ / Al + • • • + A„ 

On en déduit que les variables aléatoires M etK sont indépendantes, et de plus, les lois de 
M BtK s'obtiennent en prenant t = 0 et en sommant en k respectivement. □ 

SI El,,.., En sont indépendantes et de loi exponentielle de paramètre A alors pour tout 

réel < > 0 la v.a.r. discrète l(Ei>f} + 1- ^{En>t) — Card{l < k < n : > t] suit la loi 

binomiale Binom(n, e"*^') car les indicatrices sont indépendantes de loi de Bemoulli. 

Théorème A.2 (Comptage). Soit {E„)^i des v.a.r. de loi exponentielle de paramètre A 
repi^ésentant des durées et pour tout ré^t > 0, la v,a.r, de comptage 

Nt = Card{n > 1 : T„ < e} où T» = Êi + • • • + 

Les propriétés suivantes ont lieu : 
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1. {Tu..., Tn) a pour densité f„) ^ A"r-^'"l<o<<,<...<,„j(fi /„) 



2. T„ est la loi Gamma de densité I i-^ ,'^''_^., A"i° "^'Ir, (0 



3. Ni suit la loi de Poisson Po\{Xt) 

On dit que {Nt)t>i) est le processus de comptage de la suite 
Démonstration. La propriété[r|s'obtient par le changement de variable linéaire triangulaire 

(•■*1.N2 -Si) ^ (•Si. .Si + .S2 .S] + 1- .S„) 

à partir de la loi de (7'i . Ti — T\ T„ — 7'„_ i ) de densité 

<=l 

On obtient [2] par récurrence sur n. Pour [5] on écrit {.V, = n} = {T„ < / < T„^\}, d'où 
IP(A', = ,i) = P(T„ < /) - P(r„^i < /), et on utilise[2} □ 

Théorème A. 3 (Caractérisation des lois exponentielles par absence de mémoire). Pour 
toute v.a.r. A' surR, telle que P(A' > 0) > 0, les propriétés suivantes sont équivalentes : 

1. C{X) est une loi exponentielle : 

2. C(X - t\X > t) - C(X ) pour tout t > 0. 

Démonstration. Si X ~ Exi)(A) alors C(X - l\X > /) £(A' ) car pour tous .s. / > 0, 

Réciproquement, si G(t) — P(A' > t), alors la seconde propriété s'écrit : pour tous .s. / > 0 

G{t)G{s) = G(t I .s). 

Par continuité inférieure, = ^(X >£■)-> ¥{X > 0) > 0 lorsque r -> 0^. Ainsi, 6'{^) > 0 
pour z > 0 assez petit. Si t > 0 alors t < v: avec n e N et donc 

G{i) - ?{X >t)> P(A > ne) = G(6r. 

Ainsi, G(t) > I) pour tout t > (1. D'autre part, les solutions non identiquement nulles de 
l'équation fonctionnelle G{t ] s) = Git)G{(«) pour tous n. # € R t sont de la forme G(t) = 6'{1)* 
(considérer les t e Q puis utiliser la décroissance de G lorsque / € K . ). □ 

Remarque A.4 (Modélisation des durées de vie). Les lois exponentielles sont utiles pour 
modéliser les durées dans les processus de renouvellement sans mémoire comme les hles 
d'attente ; caisse de supermarché, feu tricolore, etc. En revanche, l'absence de mémoire 
des lois exponentielles les rend inutilisables pour modéliser des durées de vie : penser à 
une ampoule électrique. On modélise une durée de vie par une variable aléatoire réelle 
positive X . On peut penser à la durée de vie d'un organisme vivant, d'une entreprise, d'une 
situation donnée comme le chômage, etc. Supposons que X admet une densité f : P. t — >■ R , 
telle que f(t) > 0 pour tout t > 0. La loi de A' est caractérisée par la donnée de la densité f 
ou encore par la donnée de la fonction de répartition f définie par 



F{t) - P(A < f) 



pour tout t > 0. La fonction de survie est donnée par S{t) 1 — F{f) P(A' > /) pour tout 
t>{). Elle représente la probabilité de mourir après l'instant t, i.e. de survivre à la période 
|n. /|. Il est clair que la fonction de survie caractérise la loi de X, car il en va de même de la 
fonction de répartition F. La fonction de survie vérifie : 
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- S prend ses valeurs dans l'intervalle |0, 1] 

- S est continue 

- S est décroissante 

- 5(0) - l et Iini,_,oc S{t) - 0 

La fonction de hasard h est définie pour tout i > 0 par 

/(/) F'U) S'(t) 



h{f) 



Sit) l-Fit) S(t)' 



Le terme hasard est un anglicisme qui signifie ici danger ou risque. La fonction de hasard 
est positive. Elle s'interprète comme un taux de sortie instantané : pour tout f > U, 



m - f 

«.s 



fit < A' < ^ + .s I A' > /). 

-0 



Pour le voir, on écrit 

F(# + .s) P(A' < ^ + .s) 



Sit) P(A>/) 



= 1 + 



P(A > 0 
P(f < A' < / + .«<) 



P(A > 0 
= l \ Fit < X <t + s\X > t). 

La fonction de hasard caractérise la loi. En effet, pour tout I > 0, on a 



Sit) = exp ^- j liiu)(luj. 



Pour tout to > 0, la fonction de survie conditionnelle est définie pour tout t > 0 par 

5(i|to) = P(A' >/ + /,, A >/(,). 
Les fonctions de survie conditionnelles caractérisent la loi car pour tout /q, t > 0, 



On cherche souvent à modéliser les durées de vies via leur fonction de hasard h plutôt que 
via la densité /. Voici deux exemples concrets de fonctions do hasard : 

- Durée de vie humaine : la fonction h part d'une valeur positive et décroît violemment 
(ce pic initial correspond à la mortalité infantile), puis a un plat muni de deux bosses 
vers 18-22 ans (accidents deux roues) et 41) ans (accidents cardiaques), puis remonte 
de manière convexe (vieillesse). Les pics de la fonctions de hasard correspondent à 
une diminution de la durée de vie. 

- Durée du chômage : la fonction h a l'allure de la fonction ./• t-^ (1 + x)exp{—x), le pic 
mou correspondant au chômage de longue durée. 

Supposons X intégrable. La durée de vie moyenne restante est définie pourt > (J par 

r{l) - E{A -t \X >t) - E(A - / 1 A > 0 - 

Cette fonction caractérise la loi de X . En effet, il est clair que r est entièrement déterminée 
par la loi de X . Réciproquement, connaissant la fonction r. on a pour tout t > 0, 

rit)-^J\s-t)md.,. 
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Or par intégration par parties, on a 

- t}f(s) = - j^'^i., - t) S'(.s)ds = - i)S{s)\r I l^Sis) rf,s. 
Le terme de bord est nul car X est intégrable et on obtient 



j_ s{t) _d 

Cela donne 



Sis) ds 

In nS{s)ds - In /'*5(«)ds = - / d.f 
Jt Jo Jn r(s) 

d'où, en remarquant que - / S{s)ds — r(0) (— E(A')^, 

Jo 



Par conséquent, en dérivant en /, on obtient. 



Ainsi, la durée de vie moyenne restante caractérise bien la îoi. On dispose d'une caractéri- 
sation de l'indépendance temporelle qui découle de l'absence de mémoire des lois expo- 
nentielles : pour tout A > II, il y a équivalence entre : 

- X suit la loi exponentielle de moyenne l/A 

- /(/) = Ae"-^' pour tout t > 0 

- F{t) = 1 - f pour tout t > 0 

- S{t) = e~^' pour tout f > 0 

- Ii{t) = A pour tout f > 0 (constance de la fonction de hasard) 

- S{i I tu) ( ~^' pour tous ti\,t > 0 (absence de mémoire) 

- S{t + f,,) - S(f)S(fy>) pour tous /„./ > 0 

- r{f) = l/A pour tout t > i) 

Notons que la durée de vie d'un montage de composants en série correspond à un calcul de 
minimum tandis que la durée de vie d'un montage en parallèle correspond à un calcul de 
maximum. On a coutume de dire que la fonction de hasard typique d'un composant a une 
forme de baignoire -. rodage (décroissance), exploitation (long plateau), usure (croissance). 

Exercice A.5 (Fiabilité des systèmes). L'étude quantitative de la fiabilité des systèmes 
fait appel aux concepts de fonction de survie et de fonction de hasard. À ce sujet, il est 
instructif d'effectuer une recherche sur Internet sur les termes suivants : New Better Than 
Used, Mean Time To Failure, fonction de structure, coupes minimales, arbre de défaillance. 

Théorème A.6 (Lois exponentielles et géométriques). La contraction des géométriques 
donne des exponentielles et la discrétisation des exponentielles donne des géométriques : 

1. Contraction de la loi géométrique. Pour tout n > 1 soit.X,, ~ G('oiiii^.(/>„) avecO < j>„ < 
I. Si li 

iii^-foc "ï^n — A > U alors pour tout .r fc R 



lini P( — > .r I = (• 

Tî— fno 
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2. Discrétisation de la loi exponentielle. Si Y ~ Exp(A) et si \ Y J désigne la partie entière 
de y, alors [VJ et Y - [Y\ sont indépendantes et 1 + [VJ — Geoiny(.(fc~^). 

Démonstration. Pour la première partie on écrit, pour tout ;i > 1 et tout x € K, 

P(A'„ > n.r) = P(A',. > [n.v\) = (1 - p,^"'^ -> r-'^\ 

La seconde partie découle de la formule P(y' > t + a | Y > s) = f (Y > t) = c~'^' pour tous 
8,t >0, qui correspond à l'absence de mémoire des lois exponentielles. □ 

Théorème A.7 (Maximum). Si E\. E„ sont indépendantes de loi Exp(A) aJors 

/:(max(E, E„)) £(F|+--+F„) 

où Fi F„ sont indépendantes avec Fk ~ Exp(A A) pour tout l < k < n. 

Démonstration. Posons S„ = F] I • • ■ I F„. La densité de .\I„ = max(Fi E„ ) est 

/„(.;•) - {F{.M„ < t))' - ((1 - e-'^ruA^))' - »A(1 - e-^T-'^-^'U, (x). 

Montrons par récurrence sur it que S„ a pour densité /„. C'est vrai pour 1. Si cela est 
vrai pour n, alors la densité de .S„^i est, en notant yx la densité de Exp(A), 

/n*fl(„ n)A(î/)= («+ 1)A f Jn{x)e->^^^^'^<^-^Ux 

= A(n + l)/(Af-^<"^i'^ /V^^ - i)""^f^'d.r 
= A(>i + l)e-^<"+^>«'(c^'' - 1)" 



Considérons un arbre binaire infini représentant la descendance d'une cellule mère. 
Supposons que chaque bout de branche a une longueur aléatoire qui représente la durée 
de vie avant division. On suppose que toutes ces longueurs sont des v.a.r. indépendantes de 
loi exponentielle de paramètre A. À l'instant / > II, l'arbre possède Si branches, et \\, 1. 
Le processus (A/), ,,, est appelé processus de Yule de paramètre A. 

Corollaire A.8 (Taille de la population du processus de Yule). Pour tout t > 0 la taille de la 
population X, suit la loi géométrique sur N' de paramètre ( ~^'. En particulier, 

E(Ni) = c^' et Vai(A',) = (1 - c-^')e^'^'. 

Démonstration. La propriété d'absence de mémoire des lois exponentielles entraîne que 
pour tout ^ > 0, on a A', = Card{n > 1 : 5„ < /} où 5„ = Fi I • ■ • I F„ où les (F,,),,,,, 
sont des v.a.r. indépendantes avec F„ ~ Exp(nA) pour tout n > 1. Or d'après le théorème 



A.7 la v.a.r. .S'„ a la loi de iiirtx(Fi F„) où Fi E„ sont des v.a.r. indépendantes de loi 



exponentielle de paramètre A. Donc, pour tout n > 0, 

P(A> - 1 > I») = IP(5„ < f) = P(Ei < t) ■ --PiEn < 0 (1 - f "'^')"- 
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A.2 Jeu de pile ou face 

On modélise une infinité de lancers au jeu de pile ou face avec une pièce équilibrée par 
l'espace probabilisé produit ({0. 1}^^". J^.IP) où J" est la tribu engendrée par les cylindres et 
P la mesure de probabilité produit associée à la mesure de probabilité uniforme sur {il. 1}. 
Ici pile est codé 1 et face est codé (I. Lorsque la pièce n'est pas équilibrée et donne face 
avec probabilité p e [U, 1|, on équipe {(1, 1} de la loi qui affecte la probabilité /) à 1 et 1 - p 
à 0. La suite des coordonnées dans cet espace produit constitue une suite de v.a.r. (A'„)„>i 
indépendantes et de même loi de Bernoulli : 

P(A-„ = 1) = I -P(A-„ = 0) = 10.11. 

Nombre de succès en n lancers 

Le nombre de succès dans les ii premiers lancers .S'„ A'i -i- h A'„ suit la loi binomiale 

Biuoia(n,;j) de taille ;/ et de paramètre p, donnée pour tout /f = 0, 1, . . . , n par 

P(s„ = *) = (;;y„-,r-*^^^/(. -.)■-'. 

On a par linéarité de l'espérance et indépendance des A'i , A'„ 

E(5„) = E( A, )!••• + E(A'„) = np et ^2(5,0 - a-(Xi) + • ■ • + ^^(A'») = up{l - p). 

Temps d'attente du premier succès 

Si p > 0, alors le nombre de lancers pour obtenir un succès T = 'm{{ii > 1 : A'„ = 1} suit 
la loi géométrique Coo',-(p) sur de paramètre p donnée pour tout k e N* 

P(r = = (1 

On a r = si y) = 0 et F{T < 5c) = 1 sinon. On a 

E{T) - - et a'iT) = 

P p- 

Le nombre d'échecs avant le premier succès 7^ = inf{n > 0 : A'„+i = 1} = T - 1 suit la loi 
géométrique Coui. (y^) sur N et de paramètre p donnée pour tout k € N par 

P(r' - k) - P{r - 1 - ^) - (1 - pfp 

et on a 

E(r') = E{T) - 1 = et (T-(T') - (t'\T) - 

Temps d'attente des succès successifs 

Pour tout r e N', le nombre de lancers 7V nécessaires pour obtenir /■ succès est défini 

par récurrence par Ti = T et T, . i = iiif{;ï > Tr : A'„ = 1}. Les v.a.r. Ti.Tz -Ti.T.i - T> 

sont indépendantes et de même loi géométrique GeoN.(y;). La variable aléatoire T, suit la 
loi de Pascal ou loi binomiale-négative Ceow(y?)'"'. On a pour tout k > r, 

nTr-k)- (1 - /^)'' • • (1 - - (1 - />)'"V 

A.l>l kr>\ 

kl+-+kr=k 
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et 



E{T,.) = rE{T) = - et a-iTr) = ra^{T) = r 



1-p 



P 



Le processus de BernouUi {B„)„>i, est donné par B„ = Bi, + S„ où Bo est une variable 
aléatoire quelconque. Ses trajectoires sont constantes par morceaux, avec des sauts d'am- 
plitude + 1, et les temps de saut sont donnés par (T, ),>| (temps inter-sauts indépendantes 
et de même loi géométrique). Le processus de BemouUi est le processus de comptage de 
tops espacés par des durées indépendantes de même loi géométriques. De ce point de vue, 
il constitue un analogue à temps discret du processus de Poisson simple. 

Théorèmes limites 

La loi forte des grands nombres et le théorème de la limite centrale s'écrivent ici 



Cela donne un intervalle de confiance asymptotique pour /* appelé intervalle de Wald (assez 
mauvais en pratique). Il est également possible de confectionner des intervalles de confi- 
ance pour i> non asymptotiques, comme celui de Clopper-Pearson par exemple, basé sur la 
correspondance beta-binomiale : si t'i, . . . , (/„ sont des v.a. indépendantes et de loi uniforme 
sur |0. i| et si < • • • < U^„) est leur réordonnement alors L'it, ~ Bet«(fc, n - k 4 1) a pour 
densité / 6 [0. 1] ^ {J^.<i''-^(l - .s)""'' //.s)->^^-'(l - ^)"-^ et 



Motifs répétés 

Si .4„ = «le H"^ lancer est pile» = {X„ = 1} alors P(/l„) = p et donc Z!„P(.4,i) = oc 
lorsque p > 0. Comme les (.4,, ) sont indépendants, la loi du zéro-un de Borel (seconde partie 
du Borel-Cantelli) implique alors que P(lini„ .4,,) I, ce qui signifie qu'avec probabilité 1, 
on obtient «pile» une infinité de fois. Idem pour «face» lorsque p < l. Plus généralement, 

si 5| ...^r est un mot binaire fixé de longueur r construit avec ci cr e {'J. U- et si 

U < p < 1, alors avec probabilité 1, ce mot binaire apparaît une infinité de fois dans le jeu 

de pile ou face (considérer le v.a.r indépendantes et de même loi i'i = (A'i .V, ).y'j = 

(A', . 1 A'j, ) Ainsi, si T est la traduction en une suite finie de I) et de l de la Bible ou 

de Hamlet, alors avec probabilité 1, la suite T apparaît une infinité de fois à pile ou face (le 
fameux singe et sa machine à écrire. . . ). 

Lien avec la loi uniforme sur [0, 1] 

Chaque réalisation de la suite (A'„) permet de construire un nombre réel dans l'inter- 
valle (0. i] via son écriture en base 2. Cela correspond à la surjection s ; {0, .... 1}^'" -> (0, Ij 
définie pour fout x € {() 2}' " par 




S, 



et 




> k) = IP(l(L',<p} + • • • + l{ir„<p) > A-) = P(f/(,) < p). 



<(x) = ^2 



on base 2 



Lorsque p - 1/2 alors la variable aléatoire U donnée par 



n 
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suit la loi uniforme sur (0, 1). Si û = air ' H ■ • + «„2 " est un nombre diadique, on a 

P(a < U < u + 2-") - P(A', - a, .... . .V„ - «„) 

= P(A'i -ai)---lP(A'„ = a,.) = 2-". 

Réciproquement, ce calcul montre que les coefficients {A'„) de l'écriture en base 2 d'une 
variable aléatoire uniforme sur |0, 1| sont indépendants de loi de BemouUi symétrique sur 
{(), 1}. Les nombres de |0. 1] dont l'écriture en base 2 est constante à partir d'un certain 
rang « ne comptent pas » en quelque sorte, et est presque sûrement une injection et donc 
presque sûrement une bijection. On peut donc en déduire une méthode pour générer d'un 
seul coup ri réalisations indépendantes de loi de Bernoulli symétrique sur {(). 1} à partir 
d'une réalisation de précision n en base 2 d'une loi uniforme sur [0. 1|. 



A.3 Collectionneur de coupons 

Le collectionneur de coupons constitue un modèle stochastique fondamental important, 
à ranger dans la même boite à outils que le jeu de pile ou face, auquel il est intimement 
relié. Un grand nombre de situations concrètes sont modélisables par le collectionneur de 
coupons ou une de ses variantes. Nous nous limitons ici à la variante la plus simple. 

Il faut jouer un nombre de fois (aléatoire) géométrique à pile ou face pour voir apparaître 
les deux côtés de la pièce. Si on remplace la pièce de monnaie par un dé à c > 2 faces, 
combien de fois faut-il lancer le dé pour voir apparaître les r faces différentes ? On modélise 
cela, pour un entier fixé /• > 2, en considérant la variable aléatoire 

T iuin{/* > 1 : { A'i , . . . , A'„} {1....,;}} miu{»/ > 1 : Caid{A',,. . . , A'„} r} 

où (-Y„)„>i est une suite de v.a.r. indépendantes et de même loi uniforme sur { 1 r}. La 

variable aléatoire T est le temps de compiction de la collection. Le nom collectionneur de 
coupons provient des coupons à collectionner présents dans certains paquets de céréales. 

Théorème A.9 (Expression combinatoire de la loi). On aT > r et pour tout n > /•, 

où la notation entre accolades est le nombre de Stirling de seconde espèce {ii - l,r - 1), 
c'est-à-dire le nombre de partitions en r — l blocs d'un ensemble de n — 1 éléments. 

Démonstration. On a A'/ <* { A'i A'/ _! } car le coupon qui termine la collection n'a forcé- 
ment jamais été vu auparavant. Si on fixe n > r. l'événement {T - n) correspond à choisir 
le type du dernier coupon puis à répartir les n - 1 coupons restants sur les r - 1 types 
restants. Le résultat désiré en découle car la loi des type est uniforme. □ 



Le superbe théorème AJ^ n'est malgré tout pas très parlant. Le résultat intuitif suivant 



va beaucoup nous aider à étudier T. et montre en particulier que P(r < oc) = 1. 

Lemme A.IO (Décomposition). On aT = G\ \ ■ ■ ■ f 6V où 6'i G, sont des v.a. indépen- 
dantes, géométriques sur {1.2 }, avec, pour tout 1 < f < r, (// de paramètre 
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Démonstration. On pose G'i = 1 et pour tout i < « < r. 

Ci = mm{n > 1 : Xa,_i+n ^ {X\ A'ov , }}• 

On a Crtrtl({.Yi ^d}) ^ » pour tout 1 < / < n. Les variables aléatoires G'i.G'i f 

6*2 ,6'i 4- • • • 4- Gr sont les temps d'apparition des r premiers gains dans un jeu de pile 

ou face spécial dans lequel la probabilité de gagner change après chaque gain : cette prob- 
abilité vaut successivement 1. (r — l)/r, (r — 2)/r l/r. Cela témoigne du fait qu'il est de 

plus en plus difficile d'obtenir un coupon d'un nouveau type au fil de la collection. □ 

Théorème A.ll (Queue de distribution). Pour tout n > 1, 



Démonstration. On a 

F{T > n) - F{E„., U • • ■ U E,,.,.) où F{En.i) ^ {Xi ^ i X„ / /}. 

Si il, . . . , j'i e {!,•••, '■} sont distincts alors, avec R = {l, — n} \ { ii, . . . , }, 

IP(E„,.-, n • ■ • n E„,iJ = IP(A', e R) • • •P(X„ € /?) = (^) " " 7) ■ 
Le résultat désiré découle alors du principe d'inclusion-exclusion (théorème [2.17^ . □ 



Dans la formule du théorème [A.ll[ les signes sont alternés, ce qui rend délicat d'en 
déduire le comportement de la queue de T en fonction de n, r. 

Théorème A.12 (Déviation). Pour tout réel t > U, 

P(T > 1 + L^rln(r)J) < 
Démonstration. Pour tout entier u > \, on peut écrire 

r 

P(T > n) F{<JUiE„,i) < Y, P( où E„,, {A'i .V„ / i}. 

«=l 

Comme F(E„,i) = (1 - l/r)" < f■""'''^ le choix n = 1 + [/rlu(r)J mène au résultat. □ 

À présent, pour o = (J.(J5 et fixé, on peut choisir t assez grand pour que 7 ~'^' < a, ce 
qui fournit l'intervalle de prédiction \r. [tr ln(r)J i 1| de niveau o. 



Par le lemme A. 10 et la linéarité de l'espérance, on a 



1=1 1=1 1=1 t=l 

OÙ "r - l"u«-i-fy:;(X!î'-i V/' ~ ^ (1.577 est la constante d'Euler. Comme les (î\ GV 

sont indépendantes avec <7"(G'i) = (1 - 7r;)/;r^ =: r(i - l)/(r - j I 1)-, on a également 

r r-1 _ . 2 

ri 1 

Théorème A.13 (Convergence). 



rlu(r) r-foc 
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Démonstration. Par l'inégalité de Markov et les formules pour les moments de T, il vient 



P 



/ JI_ „ . A E(|r-rln(r)h 
\ fln(r) / ^ ;-'ln(;)-V-' 

^ r7-'(r) + (E(r)- rln(r))2 
H ln(r)-^- 



La borne logarithmique sur la vitesse de convergence en probabilité est trop faible pour 
en déduire une convergence presque sûre au moyen du lemme de Borel-Cantelli. En re- 
vanche, la majoration obtenue par l'inégalité de Markov fournit un intervalle de prédiction 
pour T : pour tout I > 0, 



(Te |rln(/') - W.rlM(/) + rt\) > 1 - 



/- 



À présent, pour o = 0.05 et r fixé, il faut choisir I assez grand pour que le second membre 
soit égal à 1 — a. L'intervalle de prédiction, de largeur 2/ /, se dégrade quand / augmente. 
On rappelle que la loi de Gumbel a pour fonction de répartition / € Hï »-> f '. 

Théorème A. 14 (Fluctuations asymptotiques). On a 

T-rMr) 

— f CtiuiibeL 

r— «oc 

Démonstration. Il suffit d'établir que pour tout f € R on a 

lim P(r > rhi(r) + tr) = .S"(/) - i - e"*"''. 

r-*oc 

Fixons donc / € R et supposons que r est assez grand pour que rln(/ ) + Ir > r. Soit nt,r 
l'entier défini par = r ln(f) + tr si r lu(r) + tr ç N et - [rlu(r) + tr\ + 1 sinon. Le 
théorème lA. 11 1 donne 



Comme {[) < r*'/A ! et 1 - » < t " pour tout n > l), on a 
Enfin, par convergence dominée, on obtient 

,'i'iÉ(-i)'-'(;:)(>-;)""=D-')'-'Ç=5('). 



Le théorème |A.14| fournit un intervalle de prédiction pour T : pour tout réel t > 0, 
lim F{T c \r\nir) - 7-f,rln(r) I r\\) = c"*""' - c"''. 



Lorsque r est inconnu, un estimateur naturel est r„ = ninx{A'i, . . . , X„} - Cîud{A'i . X,,}. 

Il constitue un analogue discret de l'estimateur^,, = max{('i f '„} de Q où V\ , T',, sont 

i.i.d. de loi uniforme sur |(J,6'|. 
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A.4 Marche aléatoire simple et ruine du joueur 

Soit () < ]) < ï un réel fixé et soit (c„)„>] une suite de v.a. indépendantes et de même 
loi telles que F{e„ = l) = ] - ^{e„ = -1) = p pour tout n > 1. Soit Xu une v.a. sur Z 
indépendante de la suite (fn)„>i- La marche aléatoire simple sur Z. de paramètre p, est la 
suite récurrence aléatoire (X„)„^,j sur Z définie par relation récursive suivante : 

Xn+l — X,i + Cn+\ — -'^^O + é] + • • • + Sn+} 

pour tout 71 > 0. Pour tout n > \. la v.a. = (ir,, I l)/2 suit la loi de Bemoulli de paramètre 

p car on a P(;3„ = 1) = 1 - P(,3„ = 0) = p. Ainsi, pour tout ;î > i), 

— — = ih + 1- Al ~ Binom(;j.;j). 

Le théorème suivant permet d'étudier le problème de la ruine d'un joueur qui gagne 1 
Euro avec probabilité /) et perd 1 Euro avec probabilité 1 — p. La fortune initiale est .j- et le 
joueur quitte le jeu lorsqu'il possède a < r Euros (ruine) ou b > j- Euros (gain). 

Théorème A.15 (Sortie ou ruine). Soient a. bel. avec a < h. Soit r„, n et r les v.a. à valeurs 
dans M U { oc } définies par 

Ta — inf{n > 0 : X„ = a), ti, - inf{n > 0 : X„ = b\. et t = min(Ta,Tifr). 

Alors pour tout a < .v < b on a Ej(r) < ex: et en posant p = - — - on a 

P 



?AXr = a) = < 



^" ' ' ^ et EAr) = < 
b-x j 



' X - a {b - u) p' - p" . 1 
l-2p \-2pp^'-f/' 

(6 — x)(x — a) sip — Ij. 



Démonstration. Montrons que Ej (t) < oc pour tout a < x < b. Pour tout a < x < b, il existe 
un chemin fj de longueur < {h — a) qui mène de .i à a ou b. On a 

P,(r > (h - a)) < nX,,^,^\ ^e^)=l- nXu\t^\ = f^)<l- min(p, 

Si 1) - maXo<x<t(l - min(p, 1 - p))''' ' alors on obtient pour tout k > l, 

TAr>k{b-a))<fi''. 

Comme // < 1 on obtient que F^At) < oc (tous les moments sont finis en fait) et en particulier 
Pj;(t < oc) = 1. Calculons r(x) = IPj;(A'r = a). On a pour tout « < a- < 6 

r(x) - FAXr ^ (i\Xi ^ x+\)p + PAXr - a | A', = x - - p) 
= prix -\- l) + (l - p)r{x - 1). 

L'ensemble des solutions de cette récurrence linéaire d'ordre deux est un espace vectoriel 
qui contient la solution constante 1. Si p ^ 1/2 alors p'^ est aussi solution, linéairement 
indépendante de 1, et donc les solutions sont de la forme .1 ^ Up^ avec .1 et B constantes. 
Les conditions aux bords r(a) 1, r{l)) I) fixent .4 et D, ce qui donne l'unique solution 



p^ - p" 
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Si p = 1/2 alors p = 1 et les deux solutions fondamentales précédentes sont confondues. 
Cependant, on observe que dans ce cas, est également solution, linéairement indépen- 
dante de 1, et donc les solutions sont de la forme .4 + B.r où .4 et B sont des constantes. Les 
conditions aux bords r(u) - 1 et r{0) - U fixent .4 et D. ce qui donne l'unique solution 

. . b-x 

rix) = 7 . 

b - a 

Calculons R{x) = Ej.(t). En conditionnant selon A'i on obtient pour tout a < x < b la 
récurrence linéaire (la méthode est valable pour toute chaîne de Markov, idem pour r{x)) 

Rix) = pR{x + 1) + (1 - p)R(x - 1) + 1. 

La présence du second membre 1 fait rechercher des solutions particulières. Si p / 1/2 
alors x/(l - '2p) est solution particulière, et les solutions de l'équation sont de la forme 
R{x) = x/{l — 2p) + A + Bp^. Les conditions aux bords R{a) = 0 et R{b) - 0 donnent enfin 

p( ) - ■'' ~ " _ (^^ - ") / - 
^■'"^ \-2p 1 - '2p />'' - ■ 

Si p = l/'i alors -x- est solution particulière, et les solutions sont de la forme -j - I .4 i Bx. 
Les conditions aux bords R(a) — R(b) = 0 donnent enfin 

R{x) = {b - x)ix - a). 

La même approche permet de calculer la fonction génératrice E.r(.s'" | Xr = o). □ 

Remarque A.16. Si p - 1/2, on a Pj(r„ < oc) = 1 etPj(rj, < oc) = 1 pour tout a < x < b. II 
est possible d'établir que si p - 1/2 aiors avec probabilité 1, la suite aléatoire (A',,),^^,, visite 
presque sûrement chaque élément de Z une infinité de fois. En revanche, si p / 1/2 alors 
avec probabilité 1, la suite {Xr,)„>c, ne visite qu'un nombre fini de fois chaque élément de 
S. On le voit bien dans les formules du théorème lA. 151 en faisant tendre a ou b vers l'infini. 

Remarque A.17 (Les théorèmes limites à la rescousse). Voici un autre argument pour 
établir que IPj(7 < -x) = 1. Posons m = 2p - l et a- = ïp{\ - p). Si m 0 alors par la loi 
forte des grands nombres, p. s. (A'„),^^,i tend vers f x; si m > (J et vers -oc si tv < 0, et donc 
1Pj:(t < oc) — 1. Si m — 0 aiors pour tout n > i, en posant I„ - \a. b[, on a 



¥At = 3c) < P(a < .Y„ < b) 



Or (n '■'■^A'„),j>| converge en loi vers A''(0,<t'') par le théorème central limite. Mais I„ 
dépend de ii. Cependant, comme (/„)„>) est décroissante. 



limsuppf 4^ e 1„) < iuf / 



dt = 0. 



Théorème A. 18 (Nombres de Catalan). Si r = inf{r( > 1 : X„ = 0} alors pour tout n > (), 

lPu{r = 2h -I 2) = (''^")p"''{l - P)"^'- 

On reconnaît le nombre de Catalan -^jjj {',"). Ces nombres comptent, outre les chemins 
de la marche aléatoire simple, les mots de Dyck, les parenthésages, les triangulations d'un 
polygone, les partitions non croisées, les chemins sous-diagonaux dans le carré, les arbres 
planaires, etc. Les moments pairs de la loi du demi-cercle sont les nombres de Catalan. 
C'est l'occasion de souligner que la beauté de la combinatoire réside dans les bijections 
qu'elle révèle, entre des ensembles finis d'objets de natures a priori très différentes. 
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Preuve du théorème \A.18[ Sachant {A'u = 0}, l'événement {- = 2n I- 2} correspond à une 
trajectoire de longueur 2;* + 2 partant de 0 et revenant à zéro en restant strictement positive 
ou strictement négative. Ces deux cas sont équiprobables, d'où le facteur 2 dans le résultat. 
Dans les deux cas, il y a eu forcément n + 1 incréments +1 et n + 1 incréments —1, d'où 

Pn(T = 2» + 2) •2C„j>"+'{1-pY'-\ 

où C„ est le nombre de chemins de longueur '2n + 2 partant de zéro et revenant à zéro, et 
restant strictement positifs. Le premier incrément est forcément + 1 et le dernier forcément 
-1 et C„ est égal au nombre de chemins de longueur 2n partant de zéro et revenant à zéro 
et restant positifs. Il y a n incréments I 1 et n incréments -1. Considérons les chemins 
partant de zéro et revenant à zéro et contenant n incréments I 1 et n incréments -1. Il y 
en a {'"). Si un chemin de ce type n'est pas positif alors juste après la première position 
négative, modifions tous les incréments en permutant le signe des I 1 et des -1. On obtient 
de la sorte un chemin avec ;< - 1 incréments + 1 et /< + 1 incréments - 1, et il s'avère que tous 
les chemins partant de zéro avec n — 1 incréments +1 et /i + 1 incréments —1 s'obtiennent 
de la sorte, et il y en a Ainsi, C„ (^") - {^^"^) - ■^(^"). Cette astuce est attribuée 

au mathématicien français Désiré André (1840-1917), □ 



A.5 Fonctions caractéristiques et vecteurs gaussiens 

La loi des variables et vecteur aléatoires ainsi que leur indépendance peuvent être 
étudiées au moyen de transformées, chacune correspondant à une classe de fonctions 
test particulière (ces classes sont liées par changement de variable). Pour les variables et 
vecteurs discrets, c'est la fonction génératrice qu'on a coutume d'utiliser pour sa simplicité. 
Pour les variables aléatoires positives, c'est plutôt la transformée de Laplace qui est util- 
isée. Plus généralement, pour des vecteurs aléatoires quelconques, ont utilise la fonction 
caractéristique, ou transformée de Fourier La fonction caractéristique des vecteurs aléa- 
toires gaussiens possède des propriétés remarquables. Soulignons que ces transformées 
sont avant tout liées aux lois, plutôt qu'aux variables ou vecteurs qui suivent ces lois. 

Définition A. 19 (Fonction caractéristique ou transformée de Fourier). La fonction carac- 
téristique d'une v.a.r. est la fonction : R {z € C : 1^1 < 1 } définie pour tout t 6 IR par 
$.v(0 - IE(( '''^ ). Plus généralement, la fonction caractéristique d'un vecteur aléatoire X de 
W' est la fonction : R'' h- € C : |;| < 1 } définie pour tout f G P.'' par 

*.y(0 - E(e'<*'-'''>). 

La fonction caractéristique est liée à la fonction génératrice : fjx{c^') = $a'(0- Si X est 
une v.a.r telle que A'*' est intégrable pour tout 0 < k- < n alors <î>.v est n fois dérivable en 0 
et <1> y'(0) - i*'E(A''' ) pour tout 1 < ^- < ». La transformée de Laplace définie par 

fçR"^ E(f<'"^'^) e R| U {oo} 

n'a pas l'avantage d'être partout finie comme Le calcul effectif de <I>.y peut être mené 
grâce à la formule du transfert, en utilisant au besoin f'" - cos(6') + i.siu(W). 

Théorème A.20 (Caractérisation de la loi - Admis). Deux vecteurs aléatoires de K'' ont 
même loi si et seulement si ils ont même fonction caractéristique. 

Si A' est un vecteur aléatoire de R'' et si / e R et .s e S*'"' = {x e : \\t\\., = 1} alors 
t{s, X) = (ts, X) est une v.a.r et {s, X)s est la projection de A" sur la droite Rs. 
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Corollaire A.21 (Cramér-Wold - Caractérisation par projections). La loi d'un vecteur aléa- 
toire X de W' est caractéiisée par les l'ensemble des lois de {.s. X) pour tout .s e S'' ' . 

Corollaire A.22 (Caraclérisalion de l'indépendance). Deux vecteurs aléatoires X et Y de 
W' et W'' sont indépendants si et seulement si pour tous « 6 R'' et / € W' 

'I'(.v.> )(••*■') - *a (.'.)*v(0- 
En particulier, si X et Y sont indépendants etd-d' alors pour tout f e R'', 

Soit A' une v.a.r telle que .V" est intégrable pour tout ii € N. On dit que la loi de .Y est 
caractérisée par ses moments lorsque pour toute v.a.r V, si on a IE( V" ) E(.V" ) pour tout 
ri € N alors la v.a.r Y a la même loi que .V. Le résultat suivant entraîne que la loi normale 
standard .V{0, 1) et la loi exponentielle sont caractérisées par leurs moments. 

Théorème A. 23 (Théorème des moments de Stieltjes). Soit X une v.a.r. avec X" intégrable 
pour tout n e N. Posons in„ - E(A'"). Les propositions suivantes sont équivalentes : 

1. i>\ est analytique sur un voisinage de (I 

2. 'T' Y est analytique sur R 

3. lim„_^no (;ïTl'»f.l) " < oc. 

Si ces conditions sont vérifiées alors la loi de .\ est caractérisée par ses moments. 
En particulier, une loi à support compact est caractérisée par ses moments. 

La formule de Stirling donne (1/n!)''" = C)„_>oc(l/")- Par conséquent, la loi de A' est 
caractérisée par ses moments si liin„^-,c '' " < ^• 

Démonstration. Pour tout ii € N, on a E(|A'|") < ex: et donc 4> y est /( fois dérivable sur R. 
De plus, 't'y' est continue sur R et pour tout / e R, 

- E((a-)"e"-^'). 

En particulier, «^^^'(O) - i"rn„, et la série de Taylor de ^ \ en (I est déterminée par la suite 
("'tr)r<>i- Comme le rayon de convergence /• d'une série entière J2„""~" donné par 
la formule de Hadamard r~' = lim„ \a„\", on obtient que|T;=;' 3 (prendre «„ = i"m„/n\). 
D'autre part, comme pour tout n e N et tous s,t e R, 



V 1! (n-I)!>' 



n! 



on a pour tout Tf € N pair et tous .s, t 6 K, 



♦«-1 



*.v(s ) n - *a(s) - ^^'xis) _^__$(^/-')(.,) 



,1 ' 



qui montre que [3] [2} Comme [2] [T) on a bien équivalence de |1|2|3[ Si A' est bornée 



alors SU)),, |7(i„| < x et donc 3 a lieu en utilisant la formule de Stirling. Si 3 a lieu alors les 
arguments précédents donnent un r > (J tel que est développable en série entière en 
tout .1 ç R avec un rayon de convergence > r. De proche en proche, on obtient que <ï>.\ est 
caractérisée par ses dérivées en zéro. □ 
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Théorème A.24 (Vecteurs et lois gaussiennes). Si X est un vecteur aléatoire de de 
moyenne m et de matrice de covahance E alors les propriétés suivantes sont équivalentes : 

1. Toute combinaison linéaire des composantes de X suit une loi nomwle sur R 

2. La fonction caractéristique de X est donnée pour tout t e R'' par 



3. C{X) = C{w -\- AZ), où A est une matrice de dimension d y. d vérifiant .1/1^ = T, et Z 
est un vecteur aléatoire de K'' à composantes indépendantes et de }oi.M'{(h !)• 

On dit alors que A' est un vecteur gaussicn. Sa loi est caractérisée par son vecteur 
moyenne m et sa matrice de covariance S. Elle est notée A'(f». E). On dit que c'est une loi 
gaussienne sur R''. La loi .V(0. /,/ ) de Z est appelée loi gaussienne standard. 

Démonstration. Une combinaison linéaire des composantes de A' s'écrit (n, -V) = m' .V où 
u est un vecteur colonne déterministe de R''. L'équivalence 1) ^ 2) découle donc de l'ex- 
pression de la fonction caractéristique des lois gaussiennes sur R, et du fait que la fonction 
caractéristique caractérise la loi. Cette dernière propriété montre également que la loi de 



X est caractérisée par m et Y.. L'équivalence 1) .î) provient du théorème 4.24 sur la 



racine carrée matricielle, associé au théorème |4 .2 5| sur la transformation linéaire. □ 

Exemple A.25 (Nécessaire mais pas suffisant). Les composantes d'un vecteur gaussien 
sont gaussiennes, mais la réciproque est fausse. En effet, soit X - (i . il ) un vecteur aJéa- 
toire de R- où Y' et z sont indépendantes avec Y ~ A''(0. 1 ) sur R et i de loi de Rademacher 
symétrique : P(c = ±1) = 1/2. Les composantes Y et irY de X sont gaussiennes mais la 
combinaison linéaire V I cY ne l'est pas car P(y' | :Y = U) = P(j: - -1) = 1/2. De plus, 
Cov(V',£i') = E(y'^)E(e) = U mais Y et :Y ne sont pas indépendantes. 

Théorème A.26 (Existence de densité). La Joi gaussienne A'^itn.H) surK'' admet une den- 
sité de probabilité si et seulement si Y, est inversible donnée dans ce cas par 

fir) = . exp(-i((.r - m).E-'(.r - m))). 

Démonstration. Soit .4 une racine carrée matricielle de E de même rang /> < d que T.. Soit 
Z un vecteur gaussien standard Z de loi A'(().I,/), de sorte que + .4Z ~ .\'(;/).E). La loi 
A'^fiiS) est portée par le sous-ospace affine E = {Az I m avec ; € R'^} de dimension p. 
Si p < d, alors E ^ R'' et .V'('». S) n'a pas de densité. De plus, E = R'' si et seulement 
si p = tf, c'est-à-dire si et seulement si S est inversible. On peut choisir les composantes 
de Z indépendantes et de même loi A'((L 1) sur R. La loi de Z admet alors la densité de 
probabilité // donnée, pour tout z e M'^ par 

Si A' ~ A^"!. alors pour toute indicatrice de pavé /* : K'' R. 

E{h{X)) = E(h(AZ + m)) = f li{.\z + m)fz{z)dz. 
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Si E est inversible, le changement de variable affine r = .le I in est un difîéomorphisme de 
R'^ dans lui-même, de jacobien non nul égal à <k't(,4 ' La décomposition E .4.4 entraîne 
que |ili't(.4)| - v'<ii'<lE) et E"' - (.4.4^)-' - (.4-')^.4-^ On en déduit que 

E[h{X)\ = , ^ . I h(x)pxJ-Ux - m)"^S-'(x - m)) dx 

d'où la formule annoncée pour la densité /. □ 

Théorème A. 27 (Indépendance des composantes). Pour tout vecteur gaussien X de R'', 
les trois propriétés suivantes sont équivalentes : 

1. Les composantes Xi. . . .,Xj sont mutuellement indépendantes 

2. Les composantes Xi . X,i sont deux à deux indépendantes 

3. La matrice de covariance Y. de X est diagonale. 

En particulier, un vecteur aléatoire gaussien est gaussien standard si et seulement si ses 
composantes sont indépendantes et de même loi normale centrée réduite 1 ) sur R. 

DémofKstrat/on. Les implications 1 ) => 2) et 2) => 3) découlent des définitions. Vérifions que 
:i) 1). Si on a S = Diagiat crf,), alors pour tout / € 1'', 

k^l k^l 



Les lois gaussiennes sont stables par transformation affine. En effet, si ,Y ~ j\f(ni, E) 
et .4 € ,V1,,,,/(M) et h € R'^ alors .4.V + /; ~ .M'{Ain + /*,.4E.4^). En particulier, X'({).fT-li) est 
invariante par rotation et symétries car si X ~ A''(0. fT-I,;) et si .4 est d x d orthogonale alors 
AX a la même loi que ,V. Le théorème de Cochran raffine l'étude de A'((J, (T-],/). 

Théorème A.28 (Cochran). Soit X un vecteur colonne aléatoire de P." de loiX'(m. (t'I,,) et 

R" = El ] i Ef, une décomposition de R" on somme directe de p sous-espaces vectoriels 

orthogonaux de dimensions d\ d,, avec rfi I • • ■ t dp - n. Soit Pt, la matrice du projecteur 

orthogonal sur Et et V'j, — PkX la projection orthogonale de X sur Ek. 

1. Les projections (V'i Y,,) sont des vecteurs gaussiens indépendants et 

Y, -A'(P,m,<T''P,). 

2. Les variables aléatoires \\Yi - P\m\î\. . , . , HVp - Ppm||r' sont indépendantes et 

a--\\Yk-Vkmf,'-\Hdk). 

Démonstration. On se ramène d'abord au cas où m = U par translation. Le vecteur aléatoire 
y = (i ii • • 1 ip) ' de R"'' s'écrit i' - AX où .4 est la matrice de dimension np x n 

( 

-4 = ; 
V P,' 

Il en découle que Y suit la loi .^'{^l(T~AA'^). Pour tout 1 < i < p, on a P. = P,^ = P7. De 

plus, P,Py = 0 si 1 < j 7^ j < P car Ej 1 Ej. Par conséquent, ,4/1^ = Diag(Pi Pp) est 

diagonale par blocs. On peut déduire du théorème |A.27| que i'i. . . , V,, sont des vecteurs 
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gaussiens indépendants avec Yf, ~ A^O. (T"Pa.) pour tout 1 < A* < p. En particulier, les 
variables aléatoires ||y'i l].;, . . . , WYpWl sont indépendantes. Il reste à déterminer leur loi. Pour 

tout 1 < A- < i>, soit /?t ^ } une base ortlionormée de Et, . La réunion /?]U- • U/î,, 

constitue une base orthonomaée de R". Le vecteur X s'écrit dans cette base .Y - Y\ -r ■ ■ ■ + 
Yp avec Yii = ak.iCk.i 4^ ••• + tI^.<f^ej|^,<^^ où akj = {X, ejt.f). L'invariance par transformation 
orthogonale de la loi A^O, ct'1„) implique que les variables aléatoires a^j sont indépendantes 
et de même loi A''^(0. a'). Il en découle que pour tout 1 < A < p, 

<^"'linH' - '^"■("it,i + ■ • • + ) ~ \-(fik)- 

n 

Corollaire A.29 (Échantillons gaussiens). Soient A'i A'„ des v.a.r. de loi normale {m , a-) 

avec a' > Ù, de moyenne empirique et variance empirique définies par 

X,-l±X, et SI^-L^±(X,-X,^. 
jMors les variables aléatoires X„ et sont indépendantes avec 

Xn ~A ('"•—) et ~ \ (" - 1)- 

De pius, la moyenne empirique studentisée 7',, vérifie 

Démonstration. Soit 1„ le vecteur de IR" dont toutes les coordonnées sont égales à 1. La 
matrice de la projection orthogonale sur Ei = Rl„ est donnée par 

•^'"iiî? 

Le sous-espace E2 - Ej- est de dimension /i - 1 et la matrice de la projection orthogonale 

sur E2 est P2 I„ - Pl. On a i'i PiA' X„I„ et Y2 P2A' (A'i - X„ A'„ - X,y. 

ce qui entraîne ||V2||^ = (n — 1)5,^,. Le théorème de Cochran permet de conclure. □ 

Théorème A.30 (Paul Lévy - Admis). Si (-V„),^-.,, et .V sont des vecteurs aléatoires de R'' 
et si X admet une densité continue alors les propriétés suivantes sont équivalentes : 

1. lim„_K-o IE(/{A'„)) — E(/(A')) pour toute fonction continue et bornée f : R'' -¥ R 

2. liin„-4rc E(/{A'„)) - E(/( A')) pour toute indicatrice f de pavé ou de boule 

3. lim„^no sf.vJO = <P\(t) pour tout I € R'' 

Voici une version multivariée du théorème de la limite centrale 15.121 

Corollaire A.31 (Théorème de la limite centrale multivarié). Soit (Xn)„>i une suite de 
vecteurs aléatoires do R'' indépendants et de même loi. dont les composantes sont de carré 
intégrable. Alors, en notant m et S le vecteur moyenne et la matrice de covariance de X], 
on a, avec X ~ A (0, E), pour tout pavé ou boule D de R'', 

jhn^P^v^^ ^'"^'^'"'"'^" - € = P(X € B). 
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Démonstration. Le théorème de Paul Lévy ramène le problème à la convergence ponctuelle 
des fonctions caractéristiques vers celle de la loi gaussienne A'(().E). Quitte à remplacer 

les A'jL par Xj, - tu, on peut supposer que m - (I. Comme A'i. A'„ sont des vecteurs 

aléatoires indépendants et de même loi, on a pour tout / € R'' 

*,^(,)-e(ox,.(;(-;=.x,) + ... + ,(-L,.y,.))) - {*^^.{^))" 

Pour tout / € R", la v.a.r. {/, A'i) a pour moyenne 0 et pour variance (/. y.t). Une formule de 
Taylor à l'ordre 2 en 0 pour ^^^x,; donne 't>.v,(/) - 1 + r,{l.'^() + «/-.odl/H^) d'où 



Bien qu'il ne s'agisse pas d'une véritable distance, on appelle distance du \- entre deux 
lois de probabilité p et f/ sur un ensemble fini (1 A } le nombre réel positif 

éî <" 

Cette quantité asymétrique en p et g vaut I oci si l'un des pi est nul. 

Théorème A.32 (Test d'adéquation du y")- Soit p - (/>i. pk) une loi sur {!,..., k} et 

A'i A'„ des v.a.r. sur {1, I, } indépendantes et de loi q = (çi, qi;). On définit les 

effectifs théoriques n [ — , nii, empiriques \'i ..... A';,, et la loip= (pi , — pk) par 

.V, 

m ■ npi et .V; 1 ;v, =,} + •■•-(- lj.v,.=.y et p, — 
Supposons que pi > 0, . . . , pk > 0. Considérons la distance du \ ^ normalisée 



D„ = iiDip.p) = n 2^ = 2^ — . 

Si p - (j alors pour tout f € R, 



■ , Pi -, «i 



lim F,y,Xt) F,.,i._i)(<) 

Si p f (j alors avec probabilité 1, 



lim D„ — +cx:. 

Jt—rlX 



Démonstration. Supposons que p ^ q. La loi forte des grands nombres du théorème |5.4 
entraîne qu'avec probabilité 1, on a lini„_3o A'j/n qi pour tout 1 < /' < A- et donc 



lim ^ = X:^^^^ = D(P,<Z) 



i=l 



et comme D(p.q) > 0 car/) q, on obtient bien lini„_,^ D„ +x:. Supposons à présent au 
contraire que ji q. Pour 1 < j < ;/, soit \ le vecteur aléatoire de PI*' donné par 



\/Pi 
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Les vecteurs V 'i V'„ sont indépendantes et de même loi, et cette loi est ce ntrée et de 

matrice de covariance E h — v''7'v/^^ avec ^/yï^ (\/l>\ \/1>k )- Le théorème 

limite centrale multivarié entraîne alors que pour tout pavé ou boule /3 de R*, 



A.31 



de la 



lim pf-U 



(Vi 



0 



^• V„) € 5 = IP(Z e fî) 



où Z ~ A''(fl. E). Soit Vect(y'7>) le sous-espace de engendré par y/p et soit // y^/T\^>^ 
la matrice de projection orthogonale sur Vect(^/}). La matrice de projection orthogonale 
sur Vect( Jp) ^ est h - H = S. Cette matrice est de rang k - 1 car // est de rang 1, et le 
théorème A. 28 de Cochran donne HZII"; \-{k - 1). Il ne reste plus qu'à observer que 



Dans la pratique, on connaît /> mais pas 7, et on souhaite décider au vu de A' 1 A'„ si 

p = ^ ou non. Cette décision est prise au moyen d'un test d'adéquation asymptotique. Plus 
précisément, on fixe un niveau de confiance q € (0, 1) comme par exemple o = (J,U5, puis 
on détermine le quanlile Oo d'ordre 1 - q de la loi du chi-deux \-(A- - 1), ce qui donne la 
région d'acceptation du test An = \0. a„). La règle de décision est la suivante : 

si D„ 6 Al alors on accepte l'hypothèse j) 7 et sinon on la rejette. 

La probabilité de rejeter à tort tend vers o quand ;i h» oc (erreur de première espèce). 
La probabilité d'accepter à tort tend vers 0 quand ;i -> oc (erreur de seconde espèce). 
À A'i .V„ fixés, plus n est petit, moins on rejette à tort mais plus on accepte à tort. 



A. 6 Extrêmes 

Soit (A„)„>, une suite de v.a.r. indépendantes et de même loi et 

.1/,, - iiiax(.Vi .V„). 

Pour tout j: € R et tout n € N on a 

F,u„(.r) - n^f„ < .r) - P(A-, < .r)---P(A-„ < .r) - FV-,(.r). 

Cette quantité tend vers 0 ou 1 selon que F.Y,(a-) < 1 ou Fxii-v) = 1. Cela suggère que le 
comportement asymptotique de M„ dépend du comportement de la loi de ,Vi au bord droit 
de son support. On cherche donc («„./^j)„>, de sorte que T'{<i,iM„ + l>„ < .r) tende vers une 
fonction de répartition d'une loi, si possible non dégénérée c'est-à-dire non Dirac. Cela n'est 
pas toujours possible : si par exemple A'i suit la loi de Bemoulli TiX] - 1) - 1 — P( A'i = 
0) - p avec 0 < /; < 1 alors A/„ ^ 1 sur {n > T) où T - inf{ri > 1 : A'„ - 1}, et comme T 
suit une loi géométrique de moyenne 1 /p, on a F{T < v:) = ], d'où P(A/„ ->!)=!. Plus 
généralement, cela est impossible si la loi de .Vi possède un atome au bord droit de son 
support, comme le montre le résultat suivant. 

Théorème A.33 (Bord droit du support). On a toujours 

Pf lim M„ - rr) I où ./t - suplx 6 E : FxAx} < 1} € EU {00}. 
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Démonstration. Pour tout x < xp, on a f■'\^ (.1) < 1 et donc 

De plus, dans le cas où xp < x, on a pour tout x > Xf, F{x) = 1, et donc 

F{M„<x}^ F^ix)^ l. 

Ainsi, la suite {A/„)„-,, converge en probabilité vers ./> , et comme elle est croissante, elle 
converge presque sûrement vers la même limite □ 

Examinons trois situations dont le comportement est facile à étudier : A"| est uniforme 
(queue à droite nulle), A'i est exponentielle (queue à droite à décroissance exponentielle), 
A'i est de Cauchy (queue à droite à décroissante polynomiale). 

Théorème A.34 (Unif. ^ WeibuU). Si A'j suit la loi uniforme sur [0, 0\ avec 6 > U alors 

pour tout X e R. La limite est la fonction de répartition de -E où E suit une loi exponentielle 
(on dit parfois qu'il s'agit de la loi de Weibull des extrêmes, à ne pas confondre avec les lois 
de Weibull utilisées pour modéliser les durées de vie). 

Démonstration. Pour tout j < 0 on a rrKr l 1 < 1 et 

P{M„ < 0{n-^x \ 1)) = {n-^x V 1)" -> e". 

Remarque : cela donne la vitesse et la loi de fluctuation (non gaussienne) de l'estimateur 

Bn = niax{r'i V„\ de 0 où f 'i f ',, sont i.i.d. de loi uniforme sur (O.W| (il s'agit d'un 

modèle statistique non régulier). □ 

Le théorème jA.34> indique une fluctuation non normale pour l'estimateur M„ de 9. 
Théorème A.35 (Expo. Gumbel). Si X\ est exponentielle de moyenne 1/A alors 

1''" ^AA;„-ln(n)(aO " C"' ' 

pour tout X € E. La limite est la fonction de répart.ition d'une loi de Gumbel. 

Application : on peut approcher IP(:U„ < x) par F{Xx — la(n)) où est la fonction de 
répartition de la loi de Gumbel. Par exemple pour A - 1/U), - 50, n - KJU, on a 

^{Mwo > 5)0) « = 0,49023 

tandis que le calcul exact donne 

P(A/ioo > 50) - 1 - (1 - f -^T = 0.49139. 

Démonstration. Pour tout x e R tel que x I lii(vî) > (i (toujours vrai si n assez grand) 

F{\M„ - \n(n) < i) (1 - /r^e"')" e-^~\ 

□ 
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Théorème A.36 (Cauchy Fréchet). Si A'i suit la loi de Cauchy alors 

Uin F„„-,A,„(x)-e-i^-^lsi;(x) 

n—*nc T 

pour tout ,r € R. La limite est la fonction de répartition de la loi de Fréchet. 
Démonstration. Comme aic(au(.f) - 7r/2 - l/x + Oj._^-x.(l/-C'^). pour tout x > 0, 

□ 

Ainsi, lorsque .V] suit une loi uniforme, une loi exponentielle, ou une loi de Cauchy, il 
existe une suite déterministe ("„.i!'«)„>i avec «„ > (I ainsi qu'une loi L sur E de fonction de 
répartition F tel que pour tout .r € K, 

liai F„„A/„ +/,„(•»•) - F{x). 

Le théorème suivant affirme que quelque soit la loi de A'i, la loi L est soit une masse de 
Dirac soit l'une des trois lois déjà observées à translation et dilatation près. 

Théorème A.37 (lixtrêmes de Gnedenko-Fréchet-Fisher-Tippett). S'il existe une suite 
et une loi L de fonction de répartition F telles que pour tout ./• € 

liiu F„„A/„+h,.(j-) = F{x) 

n— toc 

aloi's, soit L est une Dirac, soit L est à translation/dilatation près. . . 

1. une loi de U'eibuJj|^avec F{x) = e"^"'^'" 1r_ (ar) + lR^.(a') pour un paramètre a > 0 

2. une loi de Gumbel avec F{x) = e~' ' lR(.r) 

3. une loi de Fréchet avec F{x) = e"' " 1r , (;r) pour un paramètre a > 0 

La théorie des extrêmes fournit des conditions nécessaires et suffisantes sur F\ , pour 
l'appartenance aux bassins d'attraction des trois lois des extrêmes. Ces conditions portent 
sur la queue à droite. La loi de Weibull apparaît pour les lois dont la queue à droite est 
nulle (ex. loi uniforme), la loi de Gumbel apparaît pour les lois dont la queue à droite est 
exponentielle (ex. lois exponentielle et normale), et la loi de Fréchet apparaît pour les lois 
dont la queue à droite est polynomiale (lois de Cauchy, de Student, de Pareto). 

Remarque A.38 (Lois des extrêmes). 

1. Si X est Weibull de paramètre a alors Xf„ = n~"'*Xi 

2. Si X est Gumbel alors M„ = A'i + lu(ri) 

3. Si X est Fréchet de paramètre n alors = 

En particulier, ces trois lois sont max-stables : A/„ = a-nXi + 6„ pour un (a,„b„). 
De plus, pour tout a > 0 et toute variable aléatoire X, il y a équivalence entre : 

1. —X~^ suit une loi de Weibull de paramètre n 

2. lii(A''") suit une loi de Gumbel 

3. .V suit une loi de Fréchet de paramètre a 

1. Attention, la terminologie diffère de celle utilisée pour modéliser les durées de vie en fîabilité/survie. 
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Leçons d'oral 



Leçons d'analyse et probabilités 

229 : Suite de variables aléatoires indépendantes de même loi de Bemoulli. 
Variable aléatoire de loi binomiale. Approximations de cette loi. 

230 : Probabilité conditionnelle et indépendance. Variables aléatoires in- 
dépendantes. Variance, covariance. 

231 : Espérance, variance; loi faible des grands nombres. 

232 : Variables aléatoires possédant une densité. Exemples. 
249 : Loi normale en probabilités. 

Exemples et exercices d'analyse et probabilités 

435 : Exemples d'étude probabiliste de situations concrètes 

437 : Exercices faisant intervenir des variables aléatoires 

442 : Exemples d'exercices faisant intervenir le calcul des probabilités 
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